主成分分析实际计算了什么？

它找到新的轴，即主成分，这些轴是正交方向，按其捕获的数据方差量进行排序。保留前几个主成分可以在最小二乘意义上提供数据的最佳线性低维近似。

为什么要降维而不是使用所有特征？

在高维空间中，数据变得稀疏，距离的意义减弱，模型更容易过拟合，计算速度变慢。降维到少数几个信息丰富的坐标可以提高泛化能力、速度以及可视化和解释数据的能力。

降维通过少量坐标表示高维数据，同时保留其最重要的结构，有助于可视化、压缩和下游学习。

用 PaperMind 寻找选题即将推出Find papers & topics

Tools & resources

Learn & explore

视频即将推出

降维是将数据从高维空间映射到低维空间，同时尽可能多地保留相关信息，这可以通过线性投影到最大方差方向，或通过尊重数据底层流形的非线性嵌入来实现。

本主题涵盖了线性方法，如主成分分析和因子分析，它们旨在寻找最大方差的方向；以及非线性流形学习和嵌入方法，它们旨在揭示弯曲的低维结构。它讨论了维度灾难、重建误差以及在保留全局几何和局部邻域之间的权衡。

降维用于可视化复杂数据集、压缩和去噪信号，并生成紧凑的特征，使下游学习更快且不易过拟合；它直接解决了维度灾难问题，即随着特征数量的增加，距离和密度变得不具信息性。

主成分分析由皮尔逊提出，并由霍特林在20世纪早期发展。因子分析出现在心理测量学中，从21世纪初开始，非线性流形学习和邻域嵌入方法将降维扩展到具有弯曲低维结构的数据，成为高维可视化的标准工具。

主成分分析实际计算了什么？: 它找到新的轴，即主成分，这些轴是正交方向，按其捕获的数据方差量进行排序。保留前几个主成分可以在最小二乘意义上提供数据的最佳线性低维近似。
为什么要降维而不是使用所有特征？: 在高维空间中，数据变得稀疏，距离的意义减弱，模型更容易过拟合，计算速度变慢。降维到少数几个信息丰富的坐标可以提高泛化能力、速度以及可视化和解释数据的能力。