批判性评估工具和核查表
批判性评估工具是结构化的工具——核查表、量表和信号问题框架——它们以明确和可重复的方式指导审阅者评估研究的有效性、结果和适用性。通过将专家判断转化为一套明确的问题,它们使评估更加透明,审阅者之间的一致性更高,并且更易于报告。
Definition
批判性评估工具是一组预先定义的项目或领域,通常以问题的形式表述,审阅者将其应用于单个研究,以对其偏倚风险、结果的可解释性和适用性做出明确的、基于标准的判断。
Scope
本主题涵盖评估工具的类别及其背后的原理:通用核查表(如CASP系列和《使用者指南》)、针对特定设计的偏倚风险工具(如用于随机试验的RoB 2和用于诊断准确性研究的QUADAS-2),以及简单核查表、汇总质量量表和基于领域的判断工具之间的区别。本内容为参考教育性质,不认可任何单一工具用于临床决策。
Core questions
- 存在哪些类型的评估工具?核查表、量表和基于领域的工具有何不同?
- 为什么大多数评估工具是针对特定设计的,而不是通用的?
- 汇总质量评分和基于领域的偏倚风险判断之间有何区别?
- 工具的选择对同一研究的评估影响有多大?
Key concepts
- 通用评估核查表(CASP,《使用者指南》)
- 针对特定设计的偏倚风险工具(RoB 2, QUADAS-2)
- 信号问题
- 基于领域的判断与汇总质量评分
- 评估的评估者间一致性
- 评估判断的可重复性
Mechanisms
评估工具将循证医学中通用的有效性-结果-适用性逻辑转化为针对特定设计而设定的具体项目。CASP和JAMA《使用者指南》等通用核查表引导读者对任何论文提出相同的三个问题(Guyatt 1993; Greenhalgh 1997)。现代基于领域的工具通过将项目分组到偏倚领域中,进一步发展了这一概念——例如,RoB 2通过信号问题评估随机试验的随机化过程、偏离预定干预、缺失结果数据、结果测量和报告结果的选择等领域,从而得出每个领域和整体的判断(Sterne 2019)。QUADAS-2将相同的领域和信号问题架构应用于诊断准确性研究(Whiting 2011)。从数字汇总量表转向基于领域的判断反映了有证据表明,核查项目任意加权可能产生误导,而透明的基于领域的推理更具合理性。
Clinical relevance
这些工具被临床医生、学生和系统评价员用于使个体研究的评估明确且可审计。它们描述了如何评估研究的可信度;它们表征证据,本身并非诊断或治疗任何个体患者的基础。
Evidence & guidelines
一项对一百多种评估工具的系统评价发现,内容存在显著异质性,并且对于任何研究设计都没有单一的经过验证的金标准,这强调了工具选择本身就是一种方法学决策(Katrak 2004)。当代实践倾向于使用针对特定设计的、基于领域的工具——RoB 2用于随机试验,QUADAS-2用于诊断准确性研究,它们在Cochrane和其他系统评价指南中得到广泛认可(Sterne 2019; Whiting 2011)——并且不鼓励将这些判断转化为单一的汇总质量评分。
History
早期的评估辅助工具是叙述性阅读指南;1990年代的McMaster《使用者指南》和随后的CASP核查表为临床医生提供了明确的、针对研究类型的问卷(Guyatt 1993; Greenhalgh 1997)。随着系统评价的成熟,该领域从简单的核查表和数字质量量表转向基于领域的偏倚风险工具,例如用于诊断研究的QUADAS-2(Whiting 2011)和用于随机试验的修订版RoB 2(Sterne 2019),这反映了汇总评分可能不可靠的累积证据。
Debates
- 质量评分与基于领域的判断
- 将许多评估项目合并为单一的数字质量评分依赖于任意加权,可能产生误导性排名;当前的方法学共识倾向于透明的、基于领域的偏倚风险判断,而非汇总量表。
- 缺乏通用的金标准工具
- 内容各异的工具大量涌现,且没有任何设计有经过验证的参考工具,这意味着同一研究可能因工具不同而评估结果不同,引发了对可重复性的担忧。
Key figures
- Julian Higgins
- Jonathan Sterne
- Penny Whiting
- Gordon Guyatt
- Trisha Greenhalgh
Related topics
Seminal works
- katrak-2004
- sterne-2019-rob2
- whiting-2011-quadas2
Frequently asked questions
- 是否有最佳的批判性评估工具适用于所有研究?
- 没有。由于不同设计容易出现不同的偏倚,大多数评估是使用针对特定设计的工具进行的,一项系统评价发现没有单一的金标准工具适用于所有研究类型。
- 为什么许多领域已不再使用质量评分?
- 汇总质量评分将项目与任意权重结合,可能导致研究排名产生误导。而RoB 2和QUADAS-2等基于领域的工具则对每种偏倚给出透明的判断,这更具合理性和可重复性。