缺失数据与样本流失
缺失数据是指原本计划收集但未能获取的数据值,而样本流失是指研究过程中参与者的减少,通常是由于中途退出或失访。两者都会减少可用信息,更严重的是,当数据缺失的可能性与该数据值本身相关时,可能会导致结果出现偏差。在研究设计阶段预测并限制数据缺失,并在分析中适当处理,对于保持研究的有效性至关重要。
Definition
缺失数据是指未被记录的预期观测值,样本流失是指研究期间已入组参与者的减少;它们的影响取决于缺失机制,范围从完全随机缺失(与任何数据无关)到随机缺失(可通过观测数据解释),再到非随机缺失(与未观测值本身相关)。
Scope
本条目涵盖了数据缺失的类型(完全随机缺失、随机缺失和非随机缺失)、样本流失对偏差和统计功效的影响、设计和实施中预防缺失的策略,以及多重插补和意向性治疗分析等原则性处理方法。本条目旨在作为方法学参考,不提供临床指导。
Key concepts
- 完全随机缺失 (MCAR)
- 随机缺失 (MAR)
- 非随机缺失 (MNAR)
- 失访与中途退出
- 多重插补
- 意向性治疗分析
- 完整病例分析及其偏差
- 缺失假设的敏感性分析
Mechanisms
缺失数据带来的威胁取决于数据值缺失的原因。如果缺失与任何数据无关(MCAR),简单的分析会损失精度但仍保持无偏;如果缺失可以完全由观测变量解释(MAR),多重插补等方法可以通过从观测值中建模缺失值来恢复有效估计;如果缺失取决于未观测值本身(MNAR),则没有方法可以保证无偏结果,结论将取决于无法检验的假设。与治疗或预后相关的样本流失可能会打破随机化所建立的平衡,这就是为什么意向性治疗分析将参与者保留在其分配组中,以及为什么强调预防而非事后补救。敏感性分析则检验在不同缺失假设下结论如何变化。
Clinical relevance
评估缺失数据的量、原因以及如何处理,是判断研究结果是否可信的一部分,因为高或差异性的样本流失可能会夸大或掩盖效应。本条目描述了用于评估的研究方法学,并非诊断或治疗指导的来源。
Evidence & guidelines
美国食品药品监督管理局(FDA)召集的一个专家小组强调通过试验设计和实施来预防数据缺失,并告诫不要依赖任何单一的分析修复方法。方法学指南描述了在随机缺失假设下的多重插补及其潜在问题,以及针对结果缺失试验的意向性治疗框架;CONSORT等报告标准要求提供记录流失情况的参与者流程图。调查显示,意向性治疗在实践中常被不一致地定义和应用。
History
现代框架的形成得益于鲁宾(Rubin)在20世纪70年代对缺失机制的正式化,以及利特尔(Little)和鲁宾随后在缺失数据统计分析方面的工作,他们引入了多重插补。随着随机试验的成熟,意向性治疗原则成为处理样本流失而不破坏随机化的核心。2010年美国国家研究委员会的一份报告和FDA委托的专家小组随后将缺失数据重新定义为主要是一个设计预防问题,而非事后统计校正问题。
Debates
- 多重插补能否挽救存在大量缺失数据的研究?
- 当数据随机缺失时,多重插补能提供有效的推断,但其有效性依赖于一个无法从数据中验证的假设;当数据非随机缺失时,它可能会产生误导,因此它是一种需要结合敏感性分析使用的工具,而非万无一失的解决方案。
- 意向性治疗应如何处理缺失结果?
- 意向性治疗将参与者保留在其随机分组中以保持平衡,但当结果缺失时,若不基于对缺失值的假设,则无法应用;如何将这一原则与插补和敏感性分析结合起来,仍然是一个实际挑战。
Key figures
- Roderick Little
- Donald Rubin
- Ian White
- Jonathan Sterne
- Douglas Altman
Related topics
Seminal works
- little-2012-prevention
- sterne-2009-mi
- white-2011-itt
Frequently asked questions
- 为什么数据缺失的原因比缺失量更重要?
- 即使少量缺失数据,如果缺失的可能性取决于未观测值,也可能导致结果出现偏差;而与数据值无关的缺失主要影响精度;因此,决定偏差是否产生以及产生多少的,是缺失机制,而不仅仅是缺失量。
- 什么是意向性治疗分析,它为何对样本流失很重要?
- 意向性治疗分析根据参与者被随机分配的组别进行分析,无论之后发生了什么,这能保持随机化所建立的平衡;它对样本流失很重要,因为排除中途退出者或仅分析完成治疗的参与者,可能会重新引入随机化所消除的混杂因素。