筛查试验的特征和性能
筛查试验的性能取决于它将患病者与未患病者区分开来的能力。敏感性和特异性表达了试验的内在准确性,而预测值则表达了结果对个体意味着什么,并且在很大程度上取决于该疾病在受筛查人群中的普遍程度。
Definition
筛查试验特征是描述试验正确分类个体能力的定量属性,主要包括敏感性(试验检测到的真正患病者的比例)和特异性(试验正确排除的真正未患病者的比例),以及将结果转化为疾病概率的预测值。
Scope
本主题涵盖了筛查试验性能的核心衡量指标:敏感性、特异性、阳性预测值和阴性预测值、似然比、临界值的选择,以及疾病患病率如何影响预测值。它将这些概念作为评估筛查试验的方法学概念,而不是作为在患者身上订购或解释任何特定试验的说明。
Core questions
- 敏感性和特异性衡量什么?为什么它们被认为是试验固有的?
- 为什么即使试验不变,阳性预测值和阴性预测值也会随疾病患病率而变化?
- 移动试验的临界值如何权衡敏感性和特异性?
- 什么是似然比?它们如何更新疾病的概率?
- 为什么筛查试验倾向于高敏感性?这样做有什么代价?
Key concepts
- 敏感性(真阳性率)
- 特异性(真阴性率)
- 阳性预测值和阴性预测值
- 疾病患病率和检验前概率
- 似然比
- 临界点和敏感性-特异性权衡
- 假阳性和假阴性
Mechanisms
筛查结果与参考标准进行比较,以填充一个由真阳性、假阳性、真阴性、假阴性组成的二乘二表格。敏感性和特异性是根据疾病状态的列计算的,因此不依赖于患病率;而预测值是根据试验结果的行读取的,因此会随患病率而变化:随着疾病变得罕见,即使是高度特异性的试验也会产生相对更多的假阳性,从而降低阳性预测值。降低试验阈值会提高敏感性但降低特异性,似然比则将两者结合起来,将检验前概率转化为检验后概率。
Clinical relevance
这些衡量指标解释了为什么阳性筛查结果通常是初步的,需要确诊性诊断试验,以及为什么对低患病率人群进行筛查会产生许多假警报。这些概念对于评估已发表的筛查试验准确性至关重要;它们描述了如何解释试验证据,而不是替代对个体结果的临床判断。
Epidemiology
由于预测值取决于患病率,同一试验在不同人群中的表现不同:在高风险人群中,阳性结果更有可能是真实的,而在一般无症状人群中,大多数阳性结果可能是假的。这就是为什么筛查针对的是那些疾病足够普遍的群体,以便检测的益处超过假阳性和后续检查的危害。
Evidence & guidelines
诊断和筛查准确性报告标准强调明确的参考标准和具有代表性的患者谱,因为病例组合和验证可能会夸大表观准确性。Altman和Bland(1994)的教育性论述仍然是定义广泛使用的参考文献,筛查项目标准要求在提供人群筛查之前存在合适、足够准确的试验(Wilson & Jungner, 1968)。
History
敏感性和特异性的二乘二逻辑在20世纪中叶被医学界正式化,并随着大规模筛查的增长而成为标准。认识到预测值取决于患病率,以及后来似然比在床旁推理中的普及,都完善了临床医生和流行病学家解释试验结果的方式。
Debates
- 筛查试验的临界值应该设置在哪里?
- 较低的阈值能捕获更多真实病例,但会增加假阳性和下游危害,而较高的阈值会漏诊病例;最佳临界值取决于两种错误之间的相对成本,这仍然是一个价值判断,而非纯粹的统计判断。
Key figures
- Douglas Altman
- J. Martin Bland
- Leon Gordis
Related topics
Seminal works
- altman-bland-1994
- altman-bland-1994b
Frequently asked questions
- 为什么一个非常准确的试验仍然会产生大部分假阳性结果?
- 当疾病罕见时,少数真实病例的数量会被大量未患病者所超越;即使对这个庞大群体应用较低的假阳性率,也可能产生比真阳性更多的假阳性,因此尽管特异性高,阳性预测值仍然很低。
- 为什么筛查试验通常以高敏感性为目标?
- 筛查的目的是避免漏诊患有该疾病的人,因此高敏感性试验能最大限度地减少假阴性;其代价是更多的假阳性,这些假阳性随后通过确诊性诊断试验进行鉴别。