心理测量与心理测量学
心理测量学是测量心理属性的科学:它研究如何构建测试、如何量化测试分数,以及如何建立信度、效度和公平性,以便能够自信地解释从测试中得出的数字。
Definition
心理测量学是心理学的一个分支,关注心理测量的理论和技术,包括测试的设计、实施、评分和验证,以及将观察分数与潜在属性关联起来的统计模型。
Scope
本主题涵盖将反应转化为可解释分数的理论和方法:经典测试理论和真分数模型、信度和测量误差、效度框架、项目层面分析、常模和标准化,以及测试公平性。这是一个关于测量的方法论条目,而非针对任何个体选择或评分测试的指导。
Core questions
- 观察分数中有多少反映了属性,多少反映了测量误差?
- 在将分数解释为测量预期构念之前,需要哪些证据?
- 测试项目如何进行分析、选择和量表化?
- 如何通过常模和标准化使不同个体之间的分数具有可比性?
Key concepts
- 真分数和测量误差
- 信度(内部一致性、重测信度、评分者间信度)
- 内容效度、效标效度和构念效度
- 项目分析和难度/区分度
- 常模、标准化和标准分数
- 项目反应理论
- 测量不变性和测试公平性
Key theories
- 经典测试理论
- 经典测试理论将观察分数建模为真分数和随机误差之和,由此将信度定义为观察分数方差中归因于真分数方差的比例;Lord 和 Novick 为该领域提供了严谨的统计公式。
- 统一构念效度
- Cronbach 和 Meehl 将效度围绕测试推断的构念进行构建,Messick 则将内容、效标和构念证据统一为关于分数解释的合理性及其后果的单一论证。
Mechanisms
在经典模型中,观察分数被视为真分数加上随机误差,信度量化了真分数方差所占的比例;Lord 和 Novick 将此以及后来的项目反应模型进行了形式化。效度是分数支持预期推断的保证:Cronbach 和 Meehl 将其定位于构念及其法则网络中,Haynes 及其同事将内容效度详细描述为项目与目标领域的系统匹配,Messick 则将证据类型统一为一种论证,其中也权衡了解释的后果。常模和标准化通过将分数与定义的人群进行参照,使其具有可比性。
Clinical relevance
心理测量学特性决定了临床测试分数是否值得信赖以及它可能意味着什么,因此信度和效度证据是临床心理学中每一次合理使用测试的基础。本条目将这些特性解释为测量概念;它不推荐针对任何人的具体工具或临界值。
Evidence & guidelines
《教育和心理测试标准》规定了测试开发和使用中信度、效度和公平性的期望。Cronbach 和 Meehl、Messick 以及 Haynes 及其同事是效度框架的标准方法论参考文献,Lord 和 Novick 是经典和项目反应测试理论的规范性陈述。
History
心理测量起源于19世纪关于个体差异的研究,并在20世纪上半叶被系统化为经典测试理论。Cronbach 和 Meehl 1955年的论文使构念效度成为核心,Lord 和 Novick 1968年的专著为该领域奠定了严谨的统计和项目反应基础,Messick 后来的综合则围绕推断的合理性及其社会后果统一了效度概念。
Debates
- 效度是测试的属性还是推断的属性?
- 该领域已基本从谈论有效测试转向验证从分数中得出的推断和用途,并持续讨论测试后果在多大程度上属于效度概念的范畴。
Key figures
- Lee Cronbach
- Paul Meehl
- Samuel Messick
- Frederic Lord
- Melvin Novick
Related topics
Seminal works
- cronbach-meehl-1955
- lord-novick-1968
- messick-1995
Frequently asked questions
- 信度和效度有什么区别?
- 信度是测量的一致性(受随机误差影响的程度),而效度是从分数中得出的推断是否合理;一个测试在特定目的下可以可靠但无效,但它不可能在不合理可靠的情况下有效。
- 构念效度是什么意思?
- 它是指一个测试在多大程度上可以被解释为测量了一个预期的、理论上定义的属性,通过积累证据表明该测试与理论预测的其他变量相关联来建立。