主成分分析
主成分分析(PCA)旨在找到一组正交的导出变量,即主成分,它们能依次捕获多变量数据集中最大可能的变化量。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
主成分分析是一种正交线性变换,它将相关的变量重新表达为不相关的成分,并按顺序排列,使第一个成分具有最大的方差,每个后续成分都具有与前一个成分正交的最大方差。
Scope
本主题涵盖了主成分的定义,即协方差矩阵或相关矩阵的特征向量;它们与通过奇异值分解获得的最佳低秩最小二乘近似的等效性;载荷和得分的解释;成分数量的选择;以及基于协方差和基于相关性分析之间的区别。
Core questions
- 变量的哪些线性组合解释了最多的方差?
- 需要多少个成分才能充分概括数据?
- 何时应基于相关矩阵而非协方差矩阵进行分析?
- 如何解释成分载荷和得分?
Key theories
- 协方差矩阵的特征分解
- 主成分是协方差矩阵的特征向量,每个成分解释的方差等于相应的特征值,从而提供了总方差的精确正交分解。
- 最佳低秩近似
- 将数据投影到主轴上,可以在所有该维度的子空间中最小化平方重建误差之和,这是皮尔逊最初提出的最接近拟合线和拟合面的性质。
Clinical relevance
主成分分析广泛应用于可视化、去噪、数据压缩、多重共线性诊断,并作为预处理步骤,为回归和分类提供不相关的特征。
History
皮尔逊于1901年提出了最佳拟合线和拟合面的几何思想;霍特林于1933年独立发展并将主成分命名为一种统计技术。该方法后来与奇异值分解统一,奇异值分解为其提供了标准的数值实现。
Debates
- 选择成分数量
- 诸如保留特征值大于1的成分、检查碎石图或设定累积方差阈值等规则可能存在分歧,并且没有一个单一标准被普遍接受。
Key figures
- Karl Pearson
- Harold Hotelling
Related topics
Seminal works
- pearson1901
- hotelling1933
- jolliffe2002
Frequently asked questions
- 主成分分析与因子分析有何不同?
- 主成分分析将成分形成为最大化方差的精确线性组合,没有明确的误差模型;而因子分析则假设存在潜在的共同因子加上变量特有的噪声来解释共享的协方差。
- 在进行主成分分析之前是否应该对变量进行标准化?
- 当变量处于不同尺度时,通常会进行标准化,这等同于在相关矩阵上执行主成分分析,从而避免任何单一高方差变量主导成分。