多元线性回归
多元线性回归将直线模型扩展到同时包含多个解释变量,将连续结果建模为预测因子加截距的加权和。每个系数估计其预测因子在其他预测因子保持不变时的效应,这使得该模型成为调整关联以消除混杂因素和构建多变量预测的标准工具。
Definition
多元线性回归拟合连续结果Y的E(Y) = b0 + b1X1 + b2X2 + ... + bkXk,通过最小二乘法估计系数,使得每个bj量化当其他预测因子保持不变时,Y随Xj每增加一个单位的平均变化。
Scope
本条目涵盖多变量线性模型:每个系数作为调整效应的解释、分类预测因子和交互作用的处理、由多个预测因子引入的额外考虑(共线性、过拟合以及如何选择预测因子),以及与简单模型相同的基于残差的假设。这是一个方法学主题,而非临床指导。
Core questions
- “在其他变量保持不变的情况下”解释系数意味着什么?
- 多元回归如何调整关联以消除混杂因素?
- 分类预测因子和交互作用如何在模型中表示?
- 共线性和过多预测因子会引起什么问题?
- 如何平衡预测因子数量与样本量以避免过拟合?
Key concepts
- 调整(偏)回归系数
- 通过调整控制混杂
- 分类预测因子的虚拟编码
- 交互作用(效应修饰)项
- 多重共线性
- 过拟合和每个预测因子的事件/观测值
- 模型R方和调整R方
- 线性、独立性、恒定方差、正态误差
Mechanisms
该模型将平均结果表示为截距加上预测因子的加权和,权重(系数)通过最小二乘法估计。每个系数都是一个偏效应:当其他预测因子固定时,结果随该预测因子每单位变化的预期变化,这是回归调整混杂因素的机制。分类预测因子作为指示(虚拟)变量进入模型,交互项允许一个预测因子的效应依赖于另一个预测因子。当预测因子之间强相关(多重共线性)时,即使总体预测可能不受影响,单个系数也会变得不稳定且难以解释。相对于样本量包含过多预测因子会导致过拟合,即模型捕获噪声并在新数据上表现不佳;这促使我们限制预测因子与样本量的关系并验证模型。
Clinical relevance
多元线性回归产生了临床和公共卫生研究中报告的大多数连续结果的调整关联,并且是风险预测工作的基础。了解其系数如何解释以及如何控制混杂因素对于评估此类研究至关重要。本条目描述了该方法,并非个体诊断或治疗决策的依据。
Evidence & guidelines
Kutner及其同事和Harrell等标准教科书提出了推荐的建模策略,方法学工作警告要避免可避免的做法——特别是将连续预测因子二分法,这会丢失信息并可能使估计产生偏差。预测模型报告由TRIPOD声明涵盖。
History
线性模型的多变量扩展是通过Pearson、Fisher等人在20世纪初的工作发展起来的,他们为多个预测因子建立了最小二乘估计和推断。在生物统计学中,该模型成为调整混杂因素关联的标准方法,后来的方法学文献侧重于如何选择预测因子以及过拟合和二分法如何扭曲结果。
Debates
- 在回归模型中是否应该将连续预测因子二分化?
- 在某个截点处分割连续预测因子会丢失信息,降低功效,并可能扭曲估计的关系;方法学家认为连续预测因子通常应保持连续,并灵活建模非线性,而不是通过分类去除非线性。
Key figures
- Karl Pearson
- Ronald A. Fisher
- Frank Harrell
- Douglas Altman
- Patrick Royston
Related topics
Seminal works
- altman-royston-2006-cost
- harrell-2015
Frequently asked questions
- 为什么使用多元回归来控制混杂?
- 因为每个系数估计其预测因子在模型中其他预测因子保持不变时的效应,所以将混杂因素作为预测因子纳入模型可以调整感兴趣暴露对该混杂因素的估计效应。
- 什么是多重共线性,为什么它很重要?
- 多重共线性是预测因子之间的强相关性。它使得单个系数估计不稳定且难以解释,标准误差膨胀,即使模型的整体预测准确性可能不受影响。