模型选择与诊断
模型选择与诊断是决定回归模型应包含哪些预测因子以及拟合模型是否可靠的步骤。选择过程确定并构建预测因子;诊断过程检查残差、有影响的观测值和假设;验证过程则检查模型在未用于构建模型的数据上的表现。它们共同防止过拟合和误导性结论。
Definition
模型选择是决定回归模型中包含哪些预测因子和函数形式的过程;模型诊断是用于判断拟合模型是否满足其假设并表现充分的程序,包括残差分析、影响度量、拟合优度与校准评估以及验证。
Scope
本条目涵盖了构建回归模型的策略(包括逐步法和全模型法,以及数据驱动选择的风险)、用于检查假设的残差和影响诊断、判别和校准等拟合优度与预测性能指标,以及内部和外部验证。它适用于线性和逻辑模型,是一个方法学主题,而非临床指导。
Core questions
- 如何选择预测因子,以及为什么自动化逐步选择受到批评?
- 如何利用残差和有影响的观测值来检查模型?
- 判别和校准之间有什么区别?
- 为什么预测模型必须经过验证,而不仅仅根据构建模型的数据进行判断?
- 过拟合和乐观偏差如何扭曲表观性能?
Key concepts
- 变量(预测因子)选择
- 逐步选择及其陷阱
- 残差分析
- 有影响的观测值和杠杆点
- 拟合优度
- 判别和校准
- 过拟合和乐观偏差
- 内部和外部验证
Mechanisms
构建回归模型涉及选择哪些预测因子进入模型、以何种形式进入以及是否需要交互作用;通过显著性添加或删除预测因子的自动化逐步程序受到广泛批评,因为它们利用了偶然性,产生了不稳定的模型,并导致了乐观的估计。诊断过程随后检查拟合模型:残差图揭示了偏离线性和非恒定方差的情况,影响度量识别了对拟合结果产生不成比例影响的观测值。性能通过拟合优度来判断,对于预测而言,则通过判别(模型区分结果的好坏)和校准(预测风险与观察风险的一致程度)来判断。由于在相同数据上拟合和评估的模型表现往往优于其实际表现(过拟合导致的乐观偏差),因此需要内部验证(例如重抽样)以及理想情况下在新数据上的外部验证来估计真实的性能。
Clinical relevance
诊断和预后模型为临床风险沟通提供了大量信息,而此类模型是否经过适当选择、检查和验证,决定了其预测结果的可靠性。评估这些步骤是阅读预测模型研究的一部分。本条目描述了相关方法,并非个体诊断或治疗决策的依据。
Evidence & guidelines
TRIPOD声明为开发或验证多变量预测模型的研究提供了报告标准,BMJ预后研究系列为构建、验证和报告此类模型提出了推荐实践。Harrell的著作详细阐述了完整的模型构建和验证策略,强调避免数据驱动的选择和量化乐观偏差。
History
随着回归分析在医学研究中变得核心,人们越来越担心数据驱动的预测因子选择和未经检查的拟合会产生在开发阶段看起来令人印象深刻,但在新患者中却失败的模型。从20世纪90年代开始,方法学家强调诊断、内部和外部验证以及判别与校准之间的区别;这最终形成了共识性报告指南,特别是针对预测模型研究的TRIPOD声明。
Debates
- 是否应通过自动化逐步选择来选择预测因子?
- 由显著性检验驱动的逐步选择受到广泛反对,因为它会导致过拟合,产生不稳定的预测因子集,并给出乐观偏倚的估计;通常更倾向于采用由主题知识指导的预先指定模型,并结合收缩方法和适当的验证。
- 为什么外部验证被认为是预测模型的必要条件?
- 仅在其开发数据上评估的模型由于过拟合而显得比实际更好;需要独立数据上的性能来判断预测是否具有普适性,这就是报告标准强调验证的原因。
Key figures
- Frank Harrell
- Douglas Altman
- Karel Moons
- Patrick Royston
- Gary Collins
Related topics
Seminal works
- harrell-2015
- collins-2015-tripod
Frequently asked questions
- 判别和校准之间有什么区别?
- 判别是指模型区分有结果和无结果个体的好坏程度,而校准是指模型的预测概率与观察到的频率匹配的紧密程度。一个模型可能判别良好但校准不佳,因此两者都应进行评估。
- 为什么不鼓励逐步变量选择?
- 自动化逐步选择利用了偶然关联,产生了在不同样本中变化的不稳定预测因子集,并导致了乐观偏倚的系数和性能,因此通常更倾向于采用经过适当验证的预先指定模型。