降维
降维包括多变量方法,这些方法用少量派生量来概括许多相关变量,在尽可能保留结构的同时,简化了解释和可视化。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
降维是构建多变量数据的低维表示,该表示保留了所选的信息标准,例如方差、重建误差、成对距离或集合间相关性。
Scope
该领域涵盖将高维观测映射到低维空间的技术。它包括方差最大化的线性投影(主成分分析)、用于共享协方差的潜在因子模型(因子分析)、保留距离的嵌入(多维标度)以及通过最大化互相关来联合减少两组变量的方法(典型相关分析)。重点是构成该学科基础的线性和经典方法;非线性流形学习被视为一种扩展。
Sub-topics
Core questions
- 如何用少量不相关的派生变量替换大量相关测量值,同时信息损失最小?
- 何时应将方差保留、距离保留或潜在因子解释作为降维标准?
- 需要多少维度才能充分表示数据?
- 降维表示如何支持可视化、去噪和下游建模?
Key theories
- 方差最大化线性投影
- 主轴是正交方向,它们依次捕获最大方差,等同于协方差矩阵的特征向量,也等同于数据的最佳低秩最小二乘近似。
- 潜在共同因子模型
- 变量之间观察到的相关性由少量未观察到的共同因子加上变量特异性独特性来解释,将协方差结构分解为共享部分和独特部分。
Clinical relevance
降维是探索性数据分析、数据可视化、信号去噪、压缩以及基因组学、计量经济学和图像分析等领域回归和分类特征预处理的基础。
History
方差最大化观点起源于皮尔逊1901年对最拟合直线和平面的几何公式化,并于1933年由霍特林发展为主成分的现代统计方法。因子分析与心理测量学并行发展,随后是基于距离的标度和典型相关,最终整合为20世纪中叶多变量教材中发现的统一降维处理方法。
Key figures
- Karl Pearson
- Harold Hotelling
Related topics
Seminal works
- pearson1901
- mardia1979
- johnson2007
Frequently asked questions
- 降维和变量选择有什么区别?
- 变量选择保留原始变量的一个子集,而降维通常构建新的派生变量(例如成分或因子),这些变量是所有原始变量的组合。
- 降维总是线性的吗?
- 不。经典的核心方法是线性的,但非线性流形学习和嵌入技术也追求相同的目标;线性方法仍然是基础且可解释的。