标准化测试和常模参照评估
标准化测试和常模参照评估是使用在固定条件下施测和评分的正式工具,以便将个体的表现与来自具有代表性的参照(常模)样本的分数分布进行比较。在言语-语言病理学中,这些工具会得出标准分数、百分位排名和年龄当量,用于支持资格认定、严重程度评估和诊断决策。
Definition
常模参照测试是一种在标准化条件下施测和评分的测量方法,通过将个体的原始分数与来自已定义常模样本的分数分布进行比较来解释,通常以标准分数或百分位排名的形式表示。
Scope
本主题涵盖常模参照测量的逻辑、标准化的含义、决定测试可信度的心理测量学特性(信度、效度、常模充分性),以及临界标准的解释和局限性。它将标准化测试视为言语-语言病理学中的一种评估模式和一种方法学主题,而非针对个体测试的说明。
Core questions
- 标准分数究竟告诉我们个体相对于同伴的情况如何?
- 在测试分数能够指导诊断之前,其常模样本、信度和效度必须达到何种程度?
- 诊断临界值应设置在哪里,以及该选择如何影响敏感性和特异性?
- 常模参照测试何时是不合适的工具,以及应该用什么来补充它?
Key concepts
- 施测和评分的标准化
- 常模(参照)样本
- 标准分数、百分位排名、年龄当量
- 信度(重测信度、内部一致性)
- 效度(构念效度、内容效度、效标效度)
- 敏感性、特异性和诊断临界值
- 测量标准误
- 常模参照解释与标准参照解释
Mechanisms
测试通过固定项目、施测程序和评分规则进行标准化,然后将其施测于旨在代表目标人群的常模样本。个体的原始分数利用该样本的分布转换为标准分数或百分位,从而确定该个体相对于同伴的位置。此位置的解释价值取决于测试的信度(测量的一致性)、效度(是否测量了预期构念)以及常模的代表性。诊断用途增加了决策规则:低于某个临界值的表现被视为异常,其设置决定了敏感性和特异性之间的权衡(Spaulding, Plante, & Farinella, 2006)。
Clinical relevance
常模参照分数通常决定了服务资格和沟通障碍的记录严重程度,因此其心理测量学质量直接影响到谁被识别。本条目描述了这些分数是如何得出和解释的,以及它们在何种条件下是可信的;它是一种参考导向,不规定如何测试或诊断特定个体。
Evidence & guidelines
方法学审查反复发现,许多已发表的语言和构音测试未能达到信度、效度和常模充分性的基本心理测量学标准,因此告诫不要不加批判地依赖其分数(McCauley & Swisher, 1984)。对资格标准的分析表明,常见的临界值(例如,低于平均值一个或多个标准差的表现)并不能始终如一地区分语言障碍儿童和典型发展同伴,因为测试的诊断准确性不同(Spaulding et al., 2006)。《教育和心理测试标准》规定了测试开发、效度证据和公平使用的普遍期望(AERA, APA, & NCME, 2014)。
History
在20世纪中叶,随着以Anastasi等人物为代表的更广泛的心理测量学运动的兴起,沟通障碍领域的常模参照测试迅速发展。到20世纪80年代,语言和构音测试的激增促使了系统的心理测量学审查(McCauley & Swisher, 1984),随后的工作将重点从便利的临界值转向有记录的诊断准确性以及将标准化分数与其他评估证据相结合(Spaulding et al., 2006)。
Debates
- 低于常规临界值的表现是否足以诊断损伤?
- 诊断临界值,如-1或-1.25标准差,被广泛使用,但其敏感性和特异性因测试而异;依赖单一的常规阈值可能导致儿童的过度识别和不足识别,因此临界值应由测试的测量诊断准确性来证明其合理性。
- 常模样本在多大程度上代表了不同人群?
- 当常模样本不能代表一个人的语言或文化背景时,标准分数可能会错误地反映能力,这引发了关于常模参照测试在不同人群中公平使用的长期问题。
Key figures
- Rebecca McCauley
- Linda Swisher
- Elena Plante
- Tammie Spaulding
- Anne Anastasi
Related topics
Seminal works
- mccauley-swisher-1984
- spaulding-2006
- anastasi-urbina-1997
Frequently asked questions
- 常模参照评估和标准参照评估有什么区别?
- 常模参照评估将一个人的分数与参照样本的分布进行比较,以显示相对位置,而标准参照评估则根据定义的技能或标准来比较表现,无论同伴表现如何。
- 测量标准误为何重要?
- 因为没有测试是完全可靠的,所以获得的分数是一个估计值;测量标准误量化了其不确定性,这就是为什么分数最好解释为置信区间而不是精确点,尤其是在诊断临界值附近。