系统评价和荟萃分析
一项包含荟萃分析的系统评价结合了两种方法:一种是结构化、可重现的评价,旨在收集和评估所有符合条件的关于某个问题的研究;另一种是统计程序,将这些研究的结果汇总成一个单一的加权效应估计值。该评价控制了研究选择的偏倚;荟萃分析量化了综合信号及其周围的变异性。它们共同构成了循证干预研究的典型方法。
Definition
一项包含荟萃分析的系统评价是指采用明确、可重现的方法来识别和评估所有符合条件的关于某个问题的研究,然后统计性地结合其效应估计值,形成一个汇总估计值,同时描述中心效应和研究间的异质性。
Scope
本主题涵盖了包含定量汇总的系统评价的实施:方案和合格性、检索和筛选、偏倚风险评估、固定效应与随机效应模型的选择、加权、异质性以及管理结果的报告和确定性标准。它是一份方法学参考,而非临床指南。
Core questions
- 纳入的研究是否足够相似以证明汇总其结果是合理的?
- 应该使用固定效应模型还是随机效应模型?
- 研究结果的变异程度(异质性)超出偶然因素有多少?
- 研究内部的偏倚风险如何反映在汇总估计值中?
- 综合证据的总体确定性如何?
Key concepts
- 方案和预先设定的合格性
- 效应测量(例如,风险比、优势比、均数差)
- 逆方差加权
- 固定效应与随机效应模型
- 异质性和I平方统计量
- 森林图
- 偏倚风险评估
- 确定性评级(GRADE)
Mechanisms
在识别和评估合格研究后,每项研究都会提供一个效应估计值和精确度测量。荟萃分析通过对每项研究进行加权来结合这些结果,通常是根据其方差的倒数进行加权,因此规模更大、更精确的研究权重更大。固定效应模型假设存在一个单一的共同真实效应;随机效应模型假设真实效应在不同研究中存在差异,并纳入了这种研究间方差。超出抽样误差的真实效应的扩散是异质性,通常用I平方统计量来概括,汇总结果通常以森林图(forest plot)的形式显示。报告遵循PRISMA指南,研究内部偏倚使用Cochrane偏倚风险评估工具等进行评估,汇总证据的确定性则使用GRADE进行评级(higgins-handbook-2019; page-2021-prisma; higgins-2011-rob; guyatt-2008-grade)。
Clinical relevance
随机试验的荟萃分析为指南和卫生技术评估中引用的许多定量证据提供了基础。批判性地阅读荟萃分析——检查汇总了什么、如何处理异质性以及证据的确定性如何评级——是证据评估的一部分。该方法描述了如何得出汇总估计值;它不规定针对个体的治疗方案。
Evidence & guidelines
实施和报告是标准化的:PRISMA 2020(及其2009年的解释和阐述沿革)管理报告,Cochrane手册描述了公认的方法,Cochrane偏倚风险评估工具构建了研究内部评估,GRADE评估了证据整体的确定性(page-2021-prisma; liberati-2009; higgins-handbook-2019; higgins-2011-rob; guyatt-2008-grade)。
History
研究的统计组合可以追溯到20世纪早期的农业和医学统计学,而“荟萃分析”一词于1976年被创造。系统评价在1990年代巩固了其周围的过程,特别是通过Cochrane协作网。报告标准从QUOROM演变为PRISMA(2009年,2021年更新),I平方等异质性统计量得到普及,GRADE提供了一个结构化的确定性框架,共同定义了现代方法(page-2021-prisma; higgins-handbook-2019)。
Debates
- 异质性何时过大以至于不适合汇总?
- 结合临床或统计上不相似的研究可能会产生误导性的平均值;审阅者们在阈值问题上存在争议,以及是倾向于随机效应模型、亚组分析,还是叙述性综合而非汇总。
Key figures
- Julian Higgins
- David Moher
- Matthew Page
- Gordon Guyatt
- Cynthia Mulrow
Related topics
Seminal works
- page-2021-prisma
- higgins-handbook-2019
- guyatt-2008-grade
Frequently asked questions
- 是否每个系统评价都包含荟萃分析?
- 不是。当研究在人群、干预措施或结果方面过于不同时,汇总可能会产生误导,此时评价会报告结构化的叙述性综合,而不是单一的综合估计值。
- 什么是森林图?
- 森林图显示了每项研究的效应估计值和置信区间以及汇总估计值,使每项研究的贡献和总体结果一目了然。