简单线性回归
简单线性回归将连续结果的期望值建模为单个解释变量的直线函数。它通过最小二乘法估计截距和斜率,其中斜率表示预测变量每增加一个单位,结果平均变化多少。它是构建更复杂模型的基础回归模型。
Definition
简单线性回归拟合模型 E(Y) = a + bX,通过最小化残差平方和(普通最小二乘法)来估计截距 a 和斜率 b,从而斜率量化了单个预测变量 X 每增加一个单位时连续结果 Y 的平均变化。
Scope
本条目涵盖带有一个预测变量的直线模型:截距和斜率的含义、最小二乘估计、线性、独立性、恒定方差和近似正态残差的假设,以及通过置信区间、预测和决定系数对拟合的解释。这是一个方法论主题,而非临床指导。
Core questions
- 如何将直线拟合到数据,以及“最小二乘法”最小化的是什么?
- 截距和斜率的实质意义是什么?
- 为了使估计值及其置信区间有效,必须满足哪些假设?
- 简单线性回归与相关系数有何关系?
- 拟合线如何用于估计与预测?
Key concepts
- 截距和斜率
- 普通最小二乘法
- 残差
- 假设:线性、独立性、恒定方差、正态误差
- 斜率的置信区间
- 决定系数(R方)
- 置信区间与预测区间
- 均值回归
Mechanisms
该模型假设结果的均值位于预测变量中的一条直线上,个体观测值散布在该直线周围。普通最小二乘法选择截距和斜率,以最小化观测值与拟合值之间垂直距离(残差)的平方和。斜率估计值具有标准误差,由此可得出置信区间和假设检验,当残差独立、具有大致恒定的方差且近似正态分布时,这些是有效的。决定系数 R 方表示预测变量解释的结果方差的比例,在简单预测变量情况下等于皮尔逊相关系数的平方。置信区间描述了给定预测变量值下平均结果的不确定性,而预测区间(更宽)描述了单个未来观测值的不确定性。
Clinical relevance
简单线性回归在健康文献中普遍存在,用于描述一个连续测量值如何与另一个连续测量值相关联,并用于构建参考关系和校准线。认识其假设是评估此类分析的一部分。本条目描述了该方法,并非个体诊断或治疗决策的依据。
Evidence & guidelines
标准的医学统计学教材和 BMJ Statistics Notes 系列描述了回归线、斜率及其置信区间应如何报告和解释,并强调在依赖拟合线之前检查残差。
History
直线模型可追溯到弗朗西斯·高尔顿(Francis Galton)在19世纪对遗传性状中“均值回归”的观察,这一现象赋予了回归其名称,以及更早应用于天文学和大地测量学的最小二乘法。皮尔逊(Pearson)及其后继者将斜率的推断形式化,该模型成为现代生物统计学更广泛回归体系的切入点。
Key figures
- Francis Galton
- Karl Pearson
- Douglas Altman
- Martin Bland
Related topics
Seminal works
- altman-1991
- kutner-2005
Frequently asked questions
- 简单线性回归中的斜率意味着什么?
- 斜率是预测变量每增加一个单位时结果的平均变化。其置信区间和 p 值表明其估计的精确程度以及该关联是否与无关联可区分。
- 回归线的置信区间和预测区间有什么区别?
- 置信区间表示在给定预测变量值下平均结果的不确定性,而预测区间(更宽)表示在该值下单个新观测值的不确定性,因为它还包括围绕直线的点散布。