测量效度和信度
效度和信度是决定质量测量是否值得信赖的两个核心属性。效度关注测量是否确实捕捉到其声称要捕捉的质量方面;信度关注测量在相同条件下重复应用时是否产生一致的结果。一项测量必须同时具有信度和效度,其结果才能支持对质量的判断或采取行动的决定。
Definition
信度是指测量在重复应用、不同评估者或不同项目之间产生一致、可重现结果的程度;效度是指测量准确反映其旨在评估的潜在构念(此处指医疗质量的一个方面)的程度。
Scope
本条目涵盖了适用于质量指标和工具的效度和信度的主要形式、常用于量化它们的统计数据,以及为什么这两种属性对于具有重要后果的测量至关重要。它是一个方法学参考,不提供任何特定工具的临床评分阈值。
Core questions
- 质量测量有效意味着什么,以及如何评估效度?
- 信度与效度有何区别,为何两者都必要?
- 哪些统计数据量化内部一致性和评估者间一致性?
- 效度或信度不佳如何误导对质量的判断?
Key concepts
- 内容效度
- 构念效度
- 准则效度
- 内部一致性(克朗巴赫系数)
- 评估者间信度(科恩卡帕系数)
- 重测信度
- 测量误差和随机变异
Key theories
- 信度的经典测量理论
- 经典测量理论将观察到的测量值视为真值和随机误差之和,因此信度是观察方差中可归因于真实差异而非误差的比例。克朗巴赫系数将此操作化为旨在测量同一构念的项目之间的内部一致性。
Mechanisms
信度通过检查测量在重复应用中的一致性来评估:项目间的内部一致性、评估者间的一致性,以及在潜在状态未改变时随时间推移的稳定性。克朗巴赫系数(Cronbach's alpha)总结多项目量表的内部一致性,而科恩卡帕系数(Cohen's kappa)量化两个评估者在分类判断上的一致性,并校正了偶然一致性。效度通过积累证据来评估,证明测量反映了其预期的构念:内容效度(概念的全面覆盖)、构念效度(与其他测量之间的预期关系)和准则效度(与参考标准的符合程度)。一项测量可能可靠但无效,即始终如一地测量错误的事物,但它不可能在不可靠的情况下有效,因为随机误差限制了测量跟踪其目标的能力。
Clinical relevance
在质量指标或患者报告工具用于报告、认证或激励之前,必须确定其效度和信度,以便观察到的差异反映的是质量的真实变异,而不是测量噪声。这些属性对于解释任何质量测量计划都至关重要。本条目解释了测量属性,并非针对个体患者的临床评分规则来源。
Evidence & guidelines
统计学基础来源于克朗巴赫系数(Cronbach's coefficient alpha)和科恩卡帕系数(Cohen's kappa),健康测量的应用指导则整合在Streiner和Norman的著作中。指标分类指南将这些属性置于质量测量框架内。这些来源因其方法学内容而被引用,并非临床指令。
History
效度和信度的概念在20世纪中叶在心理测量学中被形式化,其中克朗巴赫1951年的阿尔法系数和科恩1960年的卡帕系数成为标准工具。随着医疗保健领域采用患者报告工具和质量指标,这些心理测量学原则被引入医疗保健测量,并编入Streiner和Norman等人的实用指南中。
Debates
- 克朗巴赫系数是否足以衡量信度?
- 阿尔法系数被广泛报道,但它依赖于项目数量并假设单一潜在维度;高阿尔法系数可能反映冗余而非良好的测量,并且它不能确立单维度性或效度,这促使人们呼吁提供补充证据。
Key figures
- Lee Cronbach
- Jacob Cohen
- David Streiner
- Geoffrey Norman
Related topics
Seminal works
- cronbach-1951
- cohen-1960
- streiner-norman-2015
Frequently asked questions
- 一项测量可以可靠但无效吗?
- 是的。一项测量可以给出高度一致的结果,但始终如一地捕捉错误的事物。信度是效度的必要条件,但不能保证效度;一项测量还必须被证明能反映其声称要评估的构念。
- 在评估评估者间一致性时,为什么要校正偶然性?
- 两个评估者有时纯粹是偶然达成一致,尤其是在类别较少的情况下。科恩卡帕系数根据偶然预期的一致性调整观察到的一致性,从而更真实地估计真实信度。