研究匹配与分层
匹配和分层是旨在从研究开始就通过平衡已知因素来控制混杂的设计手段。匹配将受试者配对或分组,使比较组共享混杂因素的相同分布,而分层则将受试者划分为同质的层,并在这些层内进行比较。两者都是使比较组在选定变量上更相似的方法,从而使感兴趣的对比受这些变量的扭曲程度降低。
Definition
匹配是一种设计技术,它选择比较受试者,使其与指标受试者共享一个或多个混杂因素的分布;分层是将受试者划分为由混杂因素定义的亚组(层),以便在同质层内进行暴露-结局比较。
Scope
本条目涵盖了匹配和分层的基本原理、个体匹配与频率匹配的区别、观察性研究和随机试验中分层的使用,以及分析上的含义(例如需要进行匹配或分层分析)。它被视为一种通过设计控制混杂的方法学参考,不提供临床指导。
Key concepts
- 通过设计控制混杂
- 个体(配对)匹配与频率匹配
- 层和层内比较
- 试验中的分层随机化
- 匹配分析(条件方法)
- 过度匹配
- 对非混杂因素进行匹配导致的效率损失
Mechanisms
这两种技术都在分析前消除或减少了由选定变量引起的混杂。匹配强制使匹配因素在被比较的组中具有相同的分布,因此它不再能混淆关联,但这需要一种尊重匹配结构的分析;将匹配数据视为未匹配数据进行分析可能会导致结果偏差。分层将受试者划分为层,在这些层内混杂因素基本恒定,然后估计每个层内的关联,并结合层特异性估计。在随机试验中,分层随机化在层内单独进行分配,以保持重要的预后因素在各组间平衡,通常与区组化结合使用。
Clinical relevance
识别一项研究是否通过匹配或分层控制了混杂,以及是否相应地分析了数据,是评估观察到的关联是否可信的一部分。本条目描述了研究的设计和分析方法,并非诊断或治疗指导的来源。
Evidence & guidelines
方法学文献区分了匹配的设计行为与分层或匹配分析的分析行为,并强调匹配设计需要匹配分析以避免偏差。关于试验中分层随机化的指南指出,它在较小规模的研究中最有用,应与区组化结合使用;标准流行病学教科书阐明了何时匹配能提高效率,以及何时对非混杂因素进行过度匹配会损害效率。
History
匹配长期以来一直用于慢性病的病例对照研究中,以控制年龄和性别等强混杂因素,Breslow和Day在1980年的专著中规范了这些设计所需的条件(匹配)分析。分层分析可追溯到20世纪中叶的Mantel-Haenszel方法,分层随机化被临床试验采纳,以保持预后因素在治疗组间的平衡,后来的方法学综述阐明了它何时能增加价值。
Debates
- 匹配何时有益,何时适得其反?
- 对真正的混杂因素进行匹配可以提高效率,但对非混杂因素或处于因果路径上的变量进行匹配可能会降低效率或引入偏差(过度匹配);决策取决于因果结构,而非便利性。
- 大规模试验中分层随机化是否必要?
- 分层能保持关键预后因素的平衡,在小型试验中最有价值,而在大型试验中,简单随机化本身往往能平衡各因素;过度分层会产生许多稀疏的层,使设计复杂化。
Key figures
- Norman Breslow
- Nicholas Day
- Kenneth Rothman
- Sander Greenland
- Neil Pearce
Related topics
Seminal works
- breslow-day-1980-matching
- pearce-2016-matched
- kernan-1999-stratified
Frequently asked questions
- 匹配和分层有什么区别?
- 匹配是在选择受试者时做出的抽样决定(选择比较受试者以共享混杂因素的分布),而分层是将受试者划分为由混杂因素定义的亚组,并在这些亚组内比较暴露和结局;匹配数据还需要进行匹配分析。
- 什么是过度匹配?
- 过度匹配是指对不应匹配的变量进行匹配,例如非混杂因素或处于暴露与结局之间因果路径上的变量;它可能会降低统计效率或使估计产生偏差,而非改善对混杂的控制。