筛查和诊断性试验评估
筛查和诊断性试验评估是流行病学的一个分支,旨在量化一项试验区分目标疾病患者与非患者的能力。它提供了用于根据参考标准判断一项试验并预测其应用于人群时的表现的衡量指标——敏感性、特异性、预测值、似然比和受试者工作特征曲线。
Definition
筛查和诊断性试验评估是对试验根据真实疾病状态对受试者进行分类能力的系统测量,通过将试验结果与参考标准进行交叉分类计算得出的准确性指标来表示。
Scope
本领域旨在向读者介绍通过将试验与参考(“金”)标准进行比较而得出的核心准确性指标、内在试验特性与依赖人群的预测性能之间的区别、疾病患病率的作用以及诊断准确性研究的报告标准。这是一项方法学概述,而非临床指导,不推荐任何特定的试验或针对个体的阈值。
Sub-topics
Core questions
- 一项试验识别患病者和非患病者的正确率有多高?
- 给定阳性或阴性结果,疾病实际存在或不存在的可能性有多大?
- 人群中疾病的患病率如何改变一项试验的实际价值?
- 如何选择和报告检测真病例和避免假警报之间的权衡?
Key concepts
- 参考(金)标准
- 敏感性和特异性
- 阳性预测值和阴性预测值
- 似然比
- 疾病患病率和试验前概率
- 受试者工作特征(ROC)曲线
- 诊断阈值和截断点
- 谱偏倚和验证偏倚
Mechanisms
试验评估首先将每个受试者的试验结果(阳性或阴性)与参考标准确定的真实疾病状态进行交叉分类,从而生成一个2x2表的四个单元格(真阳性、假阳性、假阴性、真阴性)。敏感性和特异性是根据已知疾病状态的列来读取的,原则上是试验的属性,不依赖于疾病的常见程度。预测值是根据试验结果的行来读取的,因此依赖于患病率,因为在疾病罕见的情况下应用相同的试验会产生更多的假阳性相对于真阳性。似然比将敏感性和特异性结合成更新试验前几率到试验后几率的因子。当试验产生连续或有序测量时,移动决策阈值会权衡敏感性和特异性;绘制所有阈值下的这种权衡会产生ROC曲线,其面积独立于任何单一截断点来总结判别能力。
Clinical relevance
这些衡量指标是评估筛查或诊断性试验是否符合目的以及公平比较竞争试验的通用语言。理解它们对于批判性评估诊断文献至关重要;该领域解释了诊断证据是如何产生和解释的,而不是个体诊断或治疗决策的基础。
Epidemiology
准确性指标是关于人群筛查项目决策的基础,其中大规模假阳性和假阴性的后果,以及疾病患病率,决定了筛查是否利大于弊。STARD等报告标准旨在提高诊断准确性研究的完整性和透明度,而谱偏倚和验证偏倚是报告准确性有效性的公认威胁。
Evidence & guidelines
STARD声明为诊断准确性研究的透明报告提供了核对表,并得到生物医学期刊的广泛认可。
History
诊断性试验的正式评估起源于20世纪中叶关于信号检测和临床决策的工作,并在20世纪70年代认识到有偏倚的研究设计可能夸大表观准确性后得到完善。可访问的准确性衡量指标在20世纪90年代通过医学文献得到普及,报告标准在21世纪初的STARD声明中得到巩固,并于2015年进行了更新。
Debates
- 为什么一项听起来高度准确的试验在筛查中仍然可能产生误导?
- 因为预测值取决于患病率,一项具有高敏感性和特异性的试验在应用于低患病率的筛查人群时,仍然可能产生许多假阳性,这是误解的常见来源。
- 研究设计偏倚对报告准确性的扭曲程度有多大?
- 谱偏倚和验证偏倚可以显著夸大测量的敏感性和特异性,因此必须根据病例和对照的选择方式以及参考标准的应用方式来解释报告的准确性。
Key figures
- Douglas Altman
- Jonathan Deeks
- David Grimes
- Kenneth Schulz
- Patrick Bossuyt
Related topics
Seminal works
- ransohoff-feinstein-1978
- altman-bland-1994a
- altman-bland-1994b
- bossuyt-2015
Frequently asked questions
- 筛查试验和诊断试验有什么区别?
- 筛查试验应用于看似健康的人群,以识别那些更可能患有某种疾病的人,通常侧重于敏感性;而诊断试验用于确认或排除已被怀疑患病的人的疾病;两者都使用相同的准确性指标根据参考标准进行评估。
- 为什么患病率对试验的有用性很重要?
- 敏感性和特异性描述的是试验本身,但阳性结果正确的几率(阳性预测值)会随着疾病变得罕见而降低,因此相同的试验在高患病率的临床环境中可能具有信息量,而在低患病率的筛查环境中则可能产生误导。