Психологическое тестирование и психометрика
Психометрика — это наука об измерении психологических атрибутов: как конструируются тесты, как количественно оцениваются их результаты, и как устанавливаются надежность, валидность и справедливость, чтобы число, полученное в результате теста, можно было интерпретировать с уверенностью.
Definition
Психометрика — это раздел психологии, занимающийся теорией и техникой психологических измерений, включая разработку, проведение, оценку и валидацию тестов, а также статистические модели, связывающие наблюдаемые баллы с лежащими в их основе атрибутами.
Scope
Эта тема охватывает теорию и методы, которые превращают ответы в интерпретируемые баллы: классическую теорию тестов и модель истинных баллов, надежность и ошибку измерения, концепцию валидности, анализ на уровне пунктов, нормирование и стандартизацию, а также справедливость тестов. Это методологическая статья об измерении, а не руководство по выбору или оценке тестов для конкретного человека.
Core questions
- Какая часть наблюдаемого балла отражает атрибут по сравнению с ошибкой измерения?
- Какие доказательства необходимы, прежде чем балл может быть интерпретирован как измерение предполагаемого конструкта?
- Как анализируются, отбираются и масштабируются тестовые пункты?
- Как баллы становятся сопоставимыми между людьми посредством норм и стандартизации?
Key concepts
- Истинный балл и ошибка измерения
- Надежность (внутренняя согласованность, ретестовая надежность, межоценочная надежность)
- Контентная, критериальная и конструктная валидность
- Анализ пунктов и их трудность/дискриминативность
- Нормы, стандартизация и стандартные баллы
- Теория ответа на пункт
- Инвариантность измерения и справедливость теста
Key theories
- Классическая теория тестов
- Классическая теория тестов моделирует наблюдаемый балл как сумму истинного балла и случайной ошибки, из чего надежность определяется как доля дисперсии наблюдаемого балла, обусловленная дисперсией истинного балла; Лорд и Новик придали этой области строгую статистическую формулировку.
- Единая конструктная валидность
- Кронбах и Мил сформулировали валидность вокруг конструкта, который тест выводит, а Мессик объединил контентные, критериальные и конструктные доказательства в единый аргумент относительно обоснования и последствий интерпретации баллов.
Mechanisms
В классической модели наблюдаемый балл рассматривается как истинный балл плюс случайная ошибка, а надежность количественно определяет долю дисперсии, которая является дисперсией истинного балла; Лорд и Новик формализовали это и более поздние модели ответа на пункт. Валидность — это гарантия того, что балл подтверждает предполагаемый вывод: Кронбах и Мил поместили ее в конструкт и его номологическую сеть, Хейнс и коллеги подробно описали контентную валидность как систематическое соответствие пунктов целевой области, а Мессик объединил типы доказательств в аргумент, который также учитывает последствия интерпретации. Нормы и стандартизация делают баллы сопоставимыми, соотнося их с определенной популяцией.
Clinical relevance
Психометрические свойства определяют, можно ли доверять результатам клинического теста и что они могут означать, поэтому доказательства надежности и валидности лежат в основе каждого обоснованного использования тестирования в клинической психологии. Эта статья объясняет эти свойства как концепции измерения; она не рекомендует конкретные инструменты или пороговые значения для какого-либо лица.
Evidence & guidelines
«Стандарты для образовательного и психологического тестирования» (The Standards for Educational and Psychological Testing) кодифицируют ожидания в отношении надежности, валидности и справедливости при разработке и использовании тестов. Кронбах и Мил, Мессик, а также Хейнс и коллеги являются стандартными методологическими источниками для концепции валидности, а Лорд и Новик — каноническим изложением классической теории тестов и теории ответа на пункт.
History
Психическое измерение возникло из работ XIX века по индивидуальным различиям и было систематизировано как классическая теория тестов в первой половине XX века. Статья Кронбаха и Мила 1955 года сделала конструктную валидность центральной, монография Лорда и Новика 1968 года заложила строгую статистическую основу и основу ответа на пункт, а более поздний синтез Мессика объединил концепцию валидности вокруг обоснования выводов и их социальных последствий.
Debates
- Является ли валидность свойством тестов или выводов?
- Область в значительной степени перешла от разговоров о валидных тестах к валидации выводов и применений, полученных из баллов, с продолжающимся обсуждением того, насколько последствия тестирования относятся к концепции валидности.
Key figures
- Lee Cronbach
- Paul Meehl
- Samuel Messick
- Frederic Lord
- Melvin Novick
Related topics
Seminal works
- cronbach-meehl-1955
- lord-novick-1968
- messick-1995
Frequently asked questions
- В чем разница между надежностью и валидностью?
- Надежность — это согласованность измерения (насколько мало оно подвержено случайной ошибке), тогда как валидность — это обоснованность вывода, сделанного на основе балла; тест может быть надежным, не будучи валидным для данной цели, но он не может быть валидным, не будучи достаточно надежным.
- Что означает конструктная валидность?
- Это степень, в которой тест может быть интерпретирован как измеряющий предполагаемый, теоретически определенный атрибут, устанавливаемая путем накопления доказательств того, что тест связан с другими переменными так, как предсказывает теория.