Was ist der Unterschied zwischen Reliabilität und Validität?

Reliabilität ist die Konsistenz einer Messung (wie wenig sie durch Zufallsfehler beeinflusst wird), während Validität die Frage ist, ob die aus einem Ergebnis gezogene Schlussfolgerung gerechtfertigt ist; ein Test kann reliabel sein, ohne für einen bestimmten Zweck valide zu sein, aber er kann nicht valide sein, ohne einigermaßen reliabel zu sein.

Was bedeutet Konstruktvalidität?

Es ist der Grad, in dem ein Test als Messung eines beabsichtigten, theoretisch definierten Attributs interpretiert werden kann, etabliert durch die Akkumulation von Evidenz, dass der Test mit anderen Variablen so in Beziehung steht, wie es die Theorie vorhersagt.

Psychologische Testverfahren und Psychometrie

Die Psychometrie ist die Wissenschaft der Messung psychologischer Attribute: wie Tests konstruiert werden, wie ihre Ergebnisse quantifiziert werden und wie Zuverlässigkeit (Reliabilität), Gültigkeit (Validität) und Fairness etabliert werden, damit eine aus einem Test abgeleitete Zahl mit Vertrauen interpretiert werden kann.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Die Psychometrie ist der Zweig der Psychologie, der sich mit der Theorie und Technik der psychologischen Messung befasst, einschließlich des Designs, der Durchführung, der Auswertung und der Validierung von Tests sowie der statistischen Modelle, die beobachtete Ergebnisse mit zugrunde liegenden Attributen in Beziehung setzen.

Scope

Dieses Thema behandelt die Theorie und Methoden, die Antworten in interpretierbare Ergebnisse umwandeln: die klassische Testtheorie und das True-Score-Modell, Reliabilität und Messfehler, das Validitätskonzept, die Item-Analyse, Normierung und Standardisierung sowie Testfairness. Es handelt sich um einen methodologischen Eintrag zur Messung, nicht um eine Anleitung zur Auswahl oder Auswertung von Tests für Einzelpersonen.

Core questions

Wie viel eines beobachteten Wertes spiegelt das Attribut im Vergleich zum Messfehler wider?
Welche Evidenz ist erforderlich, bevor ein Ergebnis als Messung eines beabsichtigten Konstrukts interpretiert werden kann?
Wie werden Testitems analysiert, ausgewählt und skaliert?
Wie werden Ergebnisse durch Normen und Standardisierung über Personen hinweg vergleichbar gemacht?

Key concepts

Wahrer Wert (True Score) und Messfehler
Reliabilität (interne Konsistenz, Test-Retest, Inter-Rater)
Inhalts-, Kriteriums- und Konstruktvalidität
Itemanalyse und Schwierigkeit/Trennschärfe
Normen, Standardisierung und Standardwerte
Item-Response-Theorie
Messinvarianz und Testfairness

Key theories

Klassische Testtheorie: Die klassische Testtheorie modelliert einen beobachteten Wert als Summe eines wahren Wertes und eines Zufallsfehlers, woraus die Reliabilität als der Anteil der beobachteten Varianz definiert wird, der auf die True-Score-Varianz zurückzuführen ist; Lord und Novick gaben dem Feld seine rigorose statistische Formulierung.
Vereinheitlichte Konstruktvalidität: Cronbach und Meehl fassten die Validität um das Konstrukt herum, das ein Test ableitet, und Messick vereinte Inhalts-, Kriteriums- und Konstruktnachweise zu einem einzigen Argument über die Rechtfertigung und die Konsequenzen der Ergebnisinterpretation.

Mechanisms

Im klassischen Modell wird ein beobachteter Wert als wahrer Wert plus Zufallsfehler behandelt, und die Reliabilität quantifiziert den Anteil der Varianz, der die True-Score-Varianz ist; Lord und Novick formalisierten dies und die späteren Item-Response-Modelle. Validität ist die Gewährleistung, dass ein Ergebnis eine beabsichtigte Schlussfolgerung stützt: Cronbach und Meehl verorteten sie im Konstrukt und seinem nomologischen Netzwerk, Haynes und Kollegen detaillierten die Inhaltsvalidität als systematische Übereinstimmung von Items mit dem Zielbereich, und Messick vereinte die Evidenztypen zu einem Argument, das auch die Konsequenzen der Interpretation berücksichtigt. Normen und Standardisierung machen Ergebnisse vergleichbar, indem sie sie auf eine definierte Population beziehen.

Clinical relevance

Psychometrische Eigenschaften bestimmen, ob ein klinisches Testergebnis vertrauenswürdig ist und was es bedeuten kann. Daher untermauern Reliabilitäts- und Validitätsnachweise jede vertretbare Anwendung von Tests in der klinischen Psychologie. Dieser Eintrag erklärt diese Eigenschaften als Messkonzepte; er empfiehlt keine spezifischen Instrumente oder Cutoffs für irgendeine Person.

Evidence & guidelines

Die Standards for Educational and Psychological Testing kodifizieren Erwartungen an Reliabilität, Validität und Fairness bei der Testentwicklung und -anwendung. Cronbach und Meehl, Messick sowie Haynes und Kollegen sind Standardreferenzen für das Validitätskonzept, und Lord und Novick ist die kanonische Darstellung der klassischen und Item-Response-Testtheorie.

History

Die psychische Messung entstand aus der Arbeit des 19. Jahrhunderts zu individuellen Unterschieden und wurde in der ersten Hälfte des 20. Jahrhunderts als klassische Testtheorie systematisiert. Cronbach und Meehls Artikel von 1955 machte die Konstruktvalidität zentral, Lord und Novicks Monographie von 1968 gab dem Feld eine rigorose statistische und Item-Response-Grundlage, und Messicks spätere Synthese vereinte das Validitätskonzept um die Rechtfertigung von Schlussfolgerungen und deren soziale Konsequenzen.

Debates

Ist Validität eine Eigenschaft von Tests oder von Schlussfolgerungen?: Das Feld hat sich weitgehend von der Rede über valide Tests hin zur Validierung der aus den Ergebnissen gezogenen Schlussfolgerungen und Verwendungen bewegt, wobei weiterhin diskutiert wird, inwieweit die Konsequenzen des Testens in das Validitätskonzept gehören.

Key figures

Lee Cronbach
Paul Meehl
Samuel Messick
Frederic Lord
Melvin Novick

Seminal works

cronbach-meehl-1955
lord-novick-1968
messick-1995

Frequently asked questions

Was ist der Unterschied zwischen Reliabilität und Validität?: Reliabilität ist die Konsistenz einer Messung (wie wenig sie durch Zufallsfehler beeinflusst wird), während Validität die Frage ist, ob die aus einem Ergebnis gezogene Schlussfolgerung gerechtfertigt ist; ein Test kann reliabel sein, ohne für einen bestimmten Zweck valide zu sein, aber er kann nicht valide sein, ohne einigermaßen reliabel zu sein.
Was bedeutet Konstruktvalidität?: Es ist der Grad, in dem ein Test als Messung eines beabsichtigten, theoretisch definierten Attributs interpretiert werden kann, etabliert durch die Akkumulation von Evidenz, dass der Test mit anderen Variablen so in Beziehung steht, wie es die Theorie vorhersagt.