В чем разница между надежностью и валидностью?

Надежность — это согласованность измерения (насколько мало оно подвержено случайной ошибке), тогда как валидность — это обоснованность вывода, сделанного на основе балла; тест может быть надежным, не будучи валидным для данной цели, но он не может быть валидным, не будучи достаточно надежным.

Что означает конструктная валидность?

Это степень, в которой тест может быть интерпретирован как измеряющий предполагаемый, теоретически определенный атрибут, устанавливаемая путем накопления доказательств того, что тест связан с другими переменными так, как предсказывает теория.

Психологическое тестирование и психометрика

Психометрика — это наука об измерении психологических атрибутов: как конструируются тесты, как количественно оцениваются их результаты, и как устанавливаются надежность, валидность и справедливость, чтобы число, полученное в результате теста, можно было интерпретировать с уверенностью.

Найти тему в PaperMindСкороFind papers & topics

Tools & resources

Скачать слайды

Learn & explore

ВидеоСкоро

Definition

Психометрика — это раздел психологии, занимающийся теорией и техникой психологических измерений, включая разработку, проведение, оценку и валидацию тестов, а также статистические модели, связывающие наблюдаемые баллы с лежащими в их основе атрибутами.

Scope

Эта тема охватывает теорию и методы, которые превращают ответы в интерпретируемые баллы: классическую теорию тестов и модель истинных баллов, надежность и ошибку измерения, концепцию валидности, анализ на уровне пунктов, нормирование и стандартизацию, а также справедливость тестов. Это методологическая статья об измерении, а не руководство по выбору или оценке тестов для конкретного человека.

Core questions

Какая часть наблюдаемого балла отражает атрибут по сравнению с ошибкой измерения?
Какие доказательства необходимы, прежде чем балл может быть интерпретирован как измерение предполагаемого конструкта?
Как анализируются, отбираются и масштабируются тестовые пункты?
Как баллы становятся сопоставимыми между людьми посредством норм и стандартизации?

Key concepts

Истинный балл и ошибка измерения
Надежность (внутренняя согласованность, ретестовая надежность, межоценочная надежность)
Контентная, критериальная и конструктная валидность
Анализ пунктов и их трудность/дискриминативность
Нормы, стандартизация и стандартные баллы
Теория ответа на пункт
Инвариантность измерения и справедливость теста

Key theories

Классическая теория тестов: Классическая теория тестов моделирует наблюдаемый балл как сумму истинного балла и случайной ошибки, из чего надежность определяется как доля дисперсии наблюдаемого балла, обусловленная дисперсией истинного балла; Лорд и Новик придали этой области строгую статистическую формулировку.
Единая конструктная валидность: Кронбах и Мил сформулировали валидность вокруг конструкта, который тест выводит, а Мессик объединил контентные, критериальные и конструктные доказательства в единый аргумент относительно обоснования и последствий интерпретации баллов.

Mechanisms

В классической модели наблюдаемый балл рассматривается как истинный балл плюс случайная ошибка, а надежность количественно определяет долю дисперсии, которая является дисперсией истинного балла; Лорд и Новик формализовали это и более поздние модели ответа на пункт. Валидность — это гарантия того, что балл подтверждает предполагаемый вывод: Кронбах и Мил поместили ее в конструкт и его номологическую сеть, Хейнс и коллеги подробно описали контентную валидность как систематическое соответствие пунктов целевой области, а Мессик объединил типы доказательств в аргумент, который также учитывает последствия интерпретации. Нормы и стандартизация делают баллы сопоставимыми, соотнося их с определенной популяцией.

Clinical relevance

Психометрические свойства определяют, можно ли доверять результатам клинического теста и что они могут означать, поэтому доказательства надежности и валидности лежат в основе каждого обоснованного использования тестирования в клинической психологии. Эта статья объясняет эти свойства как концепции измерения; она не рекомендует конкретные инструменты или пороговые значения для какого-либо лица.

Evidence & guidelines

«Стандарты для образовательного и психологического тестирования» (The Standards for Educational and Psychological Testing) кодифицируют ожидания в отношении надежности, валидности и справедливости при разработке и использовании тестов. Кронбах и Мил, Мессик, а также Хейнс и коллеги являются стандартными методологическими источниками для концепции валидности, а Лорд и Новик — каноническим изложением классической теории тестов и теории ответа на пункт.

History

Психическое измерение возникло из работ XIX века по индивидуальным различиям и было систематизировано как классическая теория тестов в первой половине XX века. Статья Кронбаха и Мила 1955 года сделала конструктную валидность центральной, монография Лорда и Новика 1968 года заложила строгую статистическую основу и основу ответа на пункт, а более поздний синтез Мессика объединил концепцию валидности вокруг обоснования выводов и их социальных последствий.

Debates

Является ли валидность свойством тестов или выводов?: Область в значительной степени перешла от разговоров о валидных тестах к валидации выводов и применений, полученных из баллов, с продолжающимся обсуждением того, насколько последствия тестирования относятся к концепции валидности.

Key figures

Lee Cronbach
Paul Meehl
Samuel Messick
Frederic Lord
Melvin Novick

Seminal works

cronbach-meehl-1955
lord-novick-1968
messick-1995

Frequently asked questions

В чем разница между надежностью и валидностью?: Надежность — это согласованность измерения (насколько мало оно подвержено случайной ошибке), тогда как валидность — это обоснованность вывода, сделанного на основе балла; тест может быть надежным, не будучи валидным для данной цели, но он не может быть валидным, не будучи достаточно надежным.
Что означает конструктная валидность?: Это степень, в которой тест может быть интерпретирован как измеряющий предполагаемый, теоретически определенный атрибут, устанавливаемая путем накопления доказательств того, что тест связан с другими переменными так, как предсказывает теория.