协方差与相关性
协方差衡量两个变量如何共同变化,而相关性则将这种共同变化重新缩放为介于-1和+1之间的系数,该系数捕获了它们线性关联的强度和方向,且不依赖于测量单位。相关性是健康研究中描述两个连续量之间关系的首批工具之一。
Definition
协方差是两个变量与其各自均值偏差乘积的平均值;相关性是协方差除以两个标准差的乘积,从而得到一个介于-1和+1之间的无量纲系数,该系数量化了它们线性关联的强度和方向。
Scope
本条目涵盖协方差及其标准化形式,即皮尔逊积矩相关系数、用于单调关联的基于秩的斯皮尔曼相关系数,以及常见的注意事项:相关性描述的是关联而非因果关系,仅反映线性(或单调)关系,并且与一致性不同。这是一个方法学主题,而非临床指导。
Core questions
- 如何用一个数字概括两个变量的共同变化?
- 给定大小的相关系数意味着什么,其符号表示什么?
- 何时应使用基于秩的(斯皮尔曼)系数而非皮尔逊系数?
- 为什么相关性不意味着因果关系,以及为什么它与一致性不同?
Key concepts
- 协方差
- 皮尔逊积矩相关系数
- 斯皮尔曼秩相关
- 标准化和无单位测量
- 线性关联与单调关联
- 相关性不等于因果关系
- 相关性与一致性
Mechanisms
协方差累积了每个变量与其均值偏差的成对乘积;当一个变量的高值倾向于伴随另一个变量的高值时,协方差为正,而当它们向相反方向变化时,协方差为负,但其大小取决于单位。除以两个标准差可以消除单位并将结果限制在-1和+1之间,从而产生皮尔逊相关系数,该系数捕获严格的线性关联。当关系是单调但不线性,或者数据是序数或非正态时,则使用斯皮尔曼系数——即应用于秩的皮尔逊系数。接近零的相关性表示没有线性关联,但并不排除非线性关系。
Clinical relevance
当研究人员描述两种临床测量如何共同变化时,相关系数是常规报告的。评估中的一个关键注意事项是,两种测量方法之间的高度相关性并不意味着它们一致,因为两种仪器可能高度相关但系统性地不同;一致性通过其他方法评估,例如一致性界限分析。本条目描述了该方法,并非个体临床决策的基础。
Evidence & guidelines
标准的医学统计学教科书和《英国医学杂志》(BMJ) 中的统计学笔记系列阐述了如何报告和解释相关性,包括相关性与一致性之间的区别,这促使了布兰德-阿尔特曼一致性界限方法在方法比较研究中的应用。
History
相关系数起源于弗朗西斯·高尔顿(Francis Galton)关于遗传学的工作,并于19世纪末由卡尔·皮尔逊(Karl Pearson)正式化。查尔斯·斯皮尔曼(Charles Spearman)于1904年引入了基于秩的系数,用于仅值排序可靠的情况。20世纪后期,布兰德(Bland)和阿尔特曼(Altman)对相关性与一致性进行了明确且有影响力的区分,重塑了方法比较研究的分析方式。
Debates
- 高相关性是否表明两种测量方法一致?
- 否:两种方法可能高度相关但存在系统性差异,因此相关性不是衡量一致性的合适指标。布兰德和阿尔特曼主张使用一致性界限分析,这一立场现在已成为方法比较研究的标准做法。
Key figures
- Francis Galton
- Karl Pearson
- Charles Spearman
- Douglas Altman
- Martin Bland
Related topics
Seminal works
- spearman-1904
- bland-altman-1986
Frequently asked questions
- 协方差和相关性有什么区别?
- 协方差衡量两个变量如何共同变化,但其大小取决于它们的单位,因此难以直接解释。相关性通过两个标准差对协方差进行标准化,从而产生一个介于-1和+1之间的无量纲系数,该系数可在不同变量之间进行比较。
- 何时应使用斯皮尔曼相关性而非皮尔逊相关性?
- 当关系是单调但不线性时,当数据是序数时,或者当异常值或非正态分布会扭曲皮尔逊系数时,优先使用基于秩的斯皮尔曼相关性。