回归与相关
回归与相关是量化变量之间关系的核心生物统计学工具。相关性衡量两个量之间关联的强度和方向,而回归则模拟当一个或多个解释变量变化时结果如何变化,支持解释和预测。它们共同构成了健康科学中报告的大多数多变量分析的基础。
Definition
回归和相关性包括统计方法,这些方法总结了变量之间的关联(相关性和协方差),并估计了将结果与一个或多个解释变量联系起来的函数(回归),以便可以解释结果、根据混杂因素进行调整或进行预测。
Scope
本领域旨在引导读者了解用于描述关联和根据预测因子建模结果的方法家族:相关性和协方差、用于连续结果的简单和多元线性回归、用于二元结果的逻辑回归,以及模型选择和诊断的交叉关注点。它是一张方法学地图,而非临床指导,并链接到详细阐述每种方法的各个主题条目。
Sub-topics
Core questions
- 两个变量的关联强度和方向如何?
- 当解释变量变化而其他变量保持不变时,结果如何变化?
- 哪种模型形式(线性、逻辑或其他)与所分析的结果类型匹配?
- 回归系数如何被解释为效应或预测?
- 如何检查、选择拟合模型并防止过拟合?
Key concepts
- 协方差和相关系数
- 最小二乘估计
- 回归系数(斜率)和截距
- 通过多元回归进行调整和混杂控制
- 链接函数和广义线性模型框架
- 预测与解释
- 过拟合和模型验证
- 残差和模型诊断
Mechanisms
相关性将两个变量的联合变异(它们的协方差)简化为介于-1和+1之间的无标度系数。回归通过拟合一个函数——通常是一条线或加权预测因子的总和——来进一步描述给定预测因子时结果的期望值。线性回归通过最小二乘法估计连续结果的此函数;逻辑回归和其他广义线性模型通过连接线性预测因子与结果尺度的链接函数,将相同的思想扩展到二元、计数和其他结果类型。在所有这些模型中,系数承载着实质性解释,诊断则检查支持该解释的假设是否成立。
Clinical relevance
临床和公共卫生研究中的大多数定量发现——调整后的关联、风险因素、剂量-反应关系和预测模型——都是通过回归产生的。理解这些模型是如何构建和解释的,是批判性评估文献的一部分。本领域描述了此类证据是如何产生的,而不是个体诊断或治疗决策的基础。
Evidence & guidelines
基于回归研究的报告指南包括观察性研究的STROBE声明和预测模型研究的TRIPOD声明;Harrell和Vittinghoff及其同事等标准教科书阐述了推荐的建模策略。方法学评论警告要避免一些做法,例如将连续预测因子二分化,这会丢失信息并可能扭曲估计效应。
History
相关性和回归起源于弗朗西斯·高尔顿(Francis Galton)19世纪末对遗传学的研究,他在此描述了“向均值回归”,并由卡尔·皮尔逊(Karl Pearson)奠定了正式基础。20世纪将线性模型扩展到多个预测因子,广义线性模型框架后来统一了线性、逻辑和相关模型。在生物统计学中,这些方法成为调整分析和风险预测的标准工具。
Key figures
- Francis Galton
- Karl Pearson
- David Cox
- Frank Harrell
- Douglas Altman
Related topics
Seminal works
- altman-bland-2005
- harrell-2015
Frequently asked questions
- 相关性和回归之间有什么区别?
- 相关性用一个对称系数总结了两个变量之间关联的强度和方向,而回归则模拟了结果如何依赖于一个或多个预测因子,并产生可用于调整或预测的系数。相关性不区分结果和预测因子;回归则区分。
- 应该使用哪种回归模型?
- 选择取决于结果类型:连续结果使用线性回归,二元结果使用逻辑回归,计数或事件发生时间数据使用其他广义线性或生存模型。各个主题条目详细描述了每种模型。