ScholarGate
助手

简单线性回归

简单线性回归将连续结果的期望值建模为单个解释变量的直线函数。它通过最小二乘法估计截距和斜率,其中斜率表示预测变量每增加一个单位,结果平均变化多少。它是构建更复杂模型的基础回归模型。

用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
下载幻灯片
Learn & explore
视频即将推出

Definition

简单线性回归拟合模型 E(Y) = a + bX,通过最小化残差平方和(普通最小二乘法)来估计截距 a 和斜率 b,从而斜率量化了单个预测变量 X 每增加一个单位时连续结果 Y 的平均变化。

Scope

本条目涵盖带有一个预测变量的直线模型:截距和斜率的含义、最小二乘估计、线性、独立性、恒定方差和近似正态残差的假设,以及通过置信区间、预测和决定系数对拟合的解释。这是一个方法论主题,而非临床指导。

Core questions

  • 如何将直线拟合到数据,以及“最小二乘法”最小化的是什么?
  • 截距和斜率的实质意义是什么?
  • 为了使估计值及其置信区间有效,必须满足哪些假设?
  • 简单线性回归与相关系数有何关系?
  • 拟合线如何用于估计与预测?

Key concepts

  • 截距和斜率
  • 普通最小二乘法
  • 残差
  • 假设:线性、独立性、恒定方差、正态误差
  • 斜率的置信区间
  • 决定系数(R方)
  • 置信区间与预测区间
  • 均值回归

Mechanisms

该模型假设结果的均值位于预测变量中的一条直线上,个体观测值散布在该直线周围。普通最小二乘法选择截距和斜率,以最小化观测值与拟合值之间垂直距离(残差)的平方和。斜率估计值具有标准误差,由此可得出置信区间和假设检验,当残差独立、具有大致恒定的方差且近似正态分布时,这些是有效的。决定系数 R 方表示预测变量解释的结果方差的比例,在简单预测变量情况下等于皮尔逊相关系数的平方。置信区间描述了给定预测变量值下平均结果的不确定性,而预测区间(更宽)描述了单个未来观测值的不确定性。

Clinical relevance

简单线性回归在健康文献中普遍存在,用于描述一个连续测量值如何与另一个连续测量值相关联,并用于构建参考关系和校准线。认识其假设是评估此类分析的一部分。本条目描述了该方法,并非个体诊断或治疗决策的依据。

Evidence & guidelines

标准的医学统计学教材和 BMJ Statistics Notes 系列描述了回归线、斜率及其置信区间应如何报告和解释,并强调在依赖拟合线之前检查残差。

History

直线模型可追溯到弗朗西斯·高尔顿(Francis Galton)在19世纪对遗传性状中“均值回归”的观察,这一现象赋予了回归其名称,以及更早应用于天文学和大地测量学的最小二乘法。皮尔逊(Pearson)及其后继者将斜率的推断形式化,该模型成为现代生物统计学更广泛回归体系的切入点。

Key figures

  • Francis Galton
  • Karl Pearson
  • Douglas Altman
  • Martin Bland

Related topics

Seminal works

  • altman-1991
  • kutner-2005

Frequently asked questions

简单线性回归中的斜率意味着什么?
斜率是预测变量每增加一个单位时结果的平均变化。其置信区间和 p 值表明其估计的精确程度以及该关联是否与无关联可区分。
回归线的置信区间和预测区间有什么区别?
置信区间表示在给定预测变量值下平均结果的不确定性,而预测区间(更宽)表示在该值下单个新观测值的不确定性,因为它还包括围绕直线的点散布。

Methods for this concept

Related concepts