在等级体系中位置越高是否就意味着结果越值得信赖？

不是。该等级体系根据设计对偏倚的典型易感性进行排名，但排名靠前的研究仍可能执行不力；可信度取决于研究的实际执行情况，这需要通过偏倚风险评估来判断。

为什么系统评价通常被置于金字塔的顶端？

因为它们系统地收集、评估和综合相关的原始研究；修订后的金字塔将其视为应用于基础设计的“透镜”，而非完全独立的层级。

证据等级

证据等级是对研究设计进行排序的体系，根据每种设计对干预效果推断的支持强度进行排列，原则上，系统偏差较少的设计排名靠前。它通常被描绘成一个金字塔，将随机对照试验及其综合分析置于观察性研究之上，而观察性研究又排在病例系列和专家意见之上。

用 PaperMind 寻找选题即将推出Find papers & topics

Tools & resources

下载幻灯片

Learn & explore

视频即将推出

Definition

证据等级是对研究设计进行排序的分类，从对因果问题偏倚最不敏感的设计（随机试验的系统评价）到最敏感的设计（病例报告和专家意见），用作衡量证据强度的初步启发式方法。

Scope

本条目解释了根据设计对偏倚的易感性进行排名的基本原理、经典的金字塔及其层级，以及重塑金字塔的现代批判。它是一个关于设计如何影响可信度的研究方法学参考，而非一套选择护理方案的规则。

Key concepts

证据级别
证据金字塔
作为主要设计顶点的随机对照试验
观察性设计（队列研究、病例对照研究）
作为基础的病例系列和专家意见
偏倚易感性作为排序原则
设计排名作为启发式方法，而非保证

Mechanisms

排序原则是系统误差的易感性：随机化通过在各组中均匀分配已知和未知因素来防止混杂，因此在关于治疗效果的问题上，随机试验优于观察性设计。此类研究的综合分析（系统评价和荟萃分析）排名更高，因为它们汇总并评估了可用的原始证据。较低的层级，如病例系列和专家意见，缺乏对照组或系统的数据收集。重要的是，排名反映的是设计的典型偏倚风险，而非任何特定研究的实施情况；一项执行不力的试验可能不如一项严谨的观察性研究值得信赖。

Clinical relevance

该等级体系是阅读文献的初步启发式方法：它表明哪些设计通常能为有效性问题提供更强的证据，并有助于解释为什么指南制定小组更重视某些研究。它描述了如何判断证据强度，但其本身并不规定任何临床行动。

Evidence & guidelines

早期的等级体系在《医学文献用户指南》（Users' Guides to the Medical Literature）及相关分级方案（Guyatt et al., 1995）中得以正式确立，随后被吸收到更注重结果的框架中，如GRADE（Guyatt et al., 2008）。Concato et al. (2000) 挑战了观察性研究本质上不可靠的假设，Murad et al. (2016) 提出了一个修订后的金字塔，其中系统评价是应用于设计层级的“透镜”，而非独立的顶层。

History

根据可靠性对设计进行排序的方法随着20世纪70年代至80年代的临床流行病学而兴起，并在20世纪90年代通过循证医学得到普及，包括加拿大工作组的证据级别和牛津循证医学中心的级别。熟悉的金字塔图像作为一种简化形式进入教学。从2000年左右开始，学者们质疑僵化的排名，GRADE运动和修订后的金字塔将重点从设计排名转向特定结果的证据确定性。

Debates

设计排名是否夸大了观察性研究的劣势？: Concato及其同事认为，精心设计的观察性研究通常能得出与随机试验相似的估计结果，因此将其视为绝对较弱可能具有误导性；排名是一种启发式方法，而非对任何个体研究的定论。
金字塔是否应该重新绘制？: 修订后的金字塔将系统评价重新定义为应用于设计层级的“透镜”，并模糊了相邻层级之间的界限，反映出可信度取决于实施和确定性，而不仅仅是设计本身。

Key figures

David Sackett
Gordon Guyatt
John Concato
M. Hassan Murad

Seminal works

sackett-1996
concato-2000
murad-2016-pyramid

Frequently asked questions

在等级体系中位置越高是否就意味着结果越值得信赖？: 不是。该等级体系根据设计对偏倚的典型易感性进行排名，但排名靠前的研究仍可能执行不力；可信度取决于研究的实际执行情况，这需要通过偏倚风险评估来判断。
为什么系统评价通常被置于金字塔的顶端？: 因为它们系统地收集、评估和综合相关的原始研究；修订后的金字塔将其视为应用于基础设计的“透镜”，而非完全独立的层级。