降维
降维通过少量坐标表示高维数据,同时保留其最重要的结构,有助于可视化、压缩和下游学习。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
降维是将数据从高维空间映射到低维空间,同时尽可能多地保留相关信息,这可以通过线性投影到最大方差方向,或通过尊重数据底层流形的非线性嵌入来实现。
Scope
本主题涵盖了线性方法,如主成分分析和因子分析,它们旨在寻找最大方差的方向;以及非线性流形学习和嵌入方法,它们旨在揭示弯曲的低维结构。它讨论了维度灾难、重建误差以及在保留全局几何和局部邻域之间的权衡。
Core questions
- 如何用少数几个特征来概括许多相关特征?
- 主成分分析优化了什么?
- 非线性方法如何恢复弯曲流形?
- 哪些信息丢失了,以及如何衡量这种损失?
Key theories
- 主成分分析
- 主成分分析将数据投影到最大方差的正交方向上,以最小二乘意义提供最佳线性低维近似,并揭示主要的变异模式。
- 概率潜在线性模型
- 概率主成分分析和因子分析将降维视为潜在变量模型,提供了生成性解释和处理噪声及缺失数据的原则性方法。
- 流形学习
- 非线性方法假设数据位于低维流形附近,并构建保留局部邻域关系的嵌入,从而捕获线性投影无法捕获的结构。
Clinical relevance
降维用于可视化复杂数据集、压缩和去噪信号,并生成紧凑的特征,使下游学习更快且不易过拟合;它直接解决了维度灾难问题,即随着特征数量的增加,距离和密度变得不具信息性。
History
主成分分析由皮尔逊提出,并由霍特林在20世纪早期发展。因子分析出现在心理测量学中,从21世纪初开始,非线性流形学习和邻域嵌入方法将降维扩展到具有弯曲低维结构的数据,成为高维可视化的标准工具。
Key figures
- Karl Pearson
- Harold Hotelling
- Trevor Hastie
Related topics
Seminal works
- hastie2009
- bishop2006
- murphy2012
Frequently asked questions
- 主成分分析实际计算了什么?
- 它找到新的轴,即主成分,这些轴是正交方向,按其捕获的数据方差量进行排序。保留前几个主成分可以在最小二乘意义上提供数据的最佳线性低维近似。
- 为什么要降维而不是使用所有特征?
- 在高维空间中,数据变得稀疏,距离的意义减弱,模型更容易过拟合,计算速度变慢。降维到少数几个信息丰富的坐标可以提高泛化能力、速度以及可视化和解释数据的能力。