系统评价和荟萃分析
系统评价是对所有解决特定问题的研究进行的结构化综合,而荟萃分析则是将其结果进行统计汇总,得出一个单一的估计值。两者在干预效果问题的证据等级中处于顶端,在药物信息领域,它们是总结文献对某种药物的集体看法的主要工具。本条目在临床药学和文献评价的范畴内讨论该主题;另有一个平行的流行病学条目。
Definition
系统评价采用明确、可重复的方法来识别、评估和综合所有与特定问题相关的研究;荟萃分析是在此类评价中对可比较研究结果进行统计组合,以产生一个汇总效应估计值。
Scope
本主题涵盖系统评价过程——包括方案、全面检索、筛选、偏倚风险评估和综合——以及用于汇总结果的荟萃分析方法,包括固定效应模型和随机效应模型,以及异质性评估。这是一个关于证据综合的方法学和参考主题,而非治疗指导的来源。
Core questions
- 如何定义评价问题和方案以使检索可重复?
- 如何识别、筛选和评估研究的偏倚风险?
- 何时可以汇总结果,应使用哪种模型?
- 如何测量和解释研究间的异质性?
- 如何报告最终的综合结果并评估其质量?
Key concepts
- 预注册方案和可重复检索
- 研究筛选和选择
- 汇总效应估计值
- 固定效应模型与随机效应模型
- 异质性和I-squared统计量
- 发表偏倚
- 报告和评估标准(PRISMA, AMSTAR 2)
Mechanisms
系统评价遵循预先指定的方案:对多个数据库进行全面检索,根据明确标准进行重复筛选,评估纳入研究的偏倚风险,并进行综合。如果研究具有可比性,荟萃分析会汇总其效应估计值,并根据其精确度进行加权。固定效应模型假设存在一个共同的真实效应,而由DerSimonian和Laird正式提出的随机效应模型则假设真实效应在研究之间存在差异,并纳入了这种研究间变异。异质性通过I-squared等统计量进行量化,由Higgins及其同事引入,用于表示由真实差异而非偶然性引起的变异比例。发表偏倚(即阳性结果的研究更有可能发表)会进行检查,因为它可能扭曲汇总估计值。PRISMA规范了整个过程的报告方式,AMSTAR 2则评估已完成评价的方法学质量。
Clinical relevance
系统评价和荟萃分析为处方集决策、指南建议和许多药物信息答案提供了汇总证据。本主题描述了这些证据是如何综合的,并支持对其进行批判性阅读;它是一个参考资源,而不是个体化诊断或治疗决策的基础。
Evidence & guidelines
证据综合遵循既定标准:用于报告系统评价和荟萃分析的PRISMA声明(2009年,2020年更新),以及用于评估其方法学质量的AMSTAR 2工具。通过I-squared量化异质性和通过DerSimonian-Laird方法进行随机效应汇总,是标准的分析组成部分。
History
研究结果的定量汇总起源于20世纪早期的统计学,荟萃分析一词于1970年代被创造。DerSimonian和Laird在1986年提出的随机效应方法成为医学荟萃分析的常用工具,Higgins及其同事在2003年提出的I-squared统计量标准化了异质性的描述。PRISMA声明于2009年首次发布,并于2020年更新,随后规范了系统评价的透明报告。
Debates
- 固定效应与随机效应汇总
- 模型的选择体现了关于研究是估计单一共同效应还是效应分布的假设;随机效应模型赋予较小研究更大的权重和更宽的置信区间,而适当的选择取决于异质性和推断目标。
Key figures
- David Moher
- Matthew Page
- Julian Higgins
- Rebecca DerSimonian
- Nan Laird
Related topics
Seminal works
- moher-2009-prisma
- dersimonian-1986
- higgins-2003
- page-2021-prisma
Frequently asked questions
- 系统评价和荟萃分析有什么区别?
- 系统评价是寻找、评估和综合所有相关研究的结构化过程;荟萃分析是其中可选的统计步骤,它将可比较的结果汇总成一个单一的估计值。
- I-squared统计量告诉我什么?
- 它估计了研究间总变异中由真实异质性而非偶然性引起的比例,有助于判断将结果汇总成单一估计值是否合适。