无监督学习
无监督学习在无标签数据中发现结构,无需模仿目标输出即可找到分组、低维表示和潜在因子。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
无监督学习是仅从输入中推断结构,没有相关的目标值;算法旨在寻找数据的紧凑描述,例如聚类分配、低维坐标或解释观测数据如何产生的生成性潜在变量。
Scope
该领域涵盖了从无标签数据中学习:聚类分组、降维和流形学习、通过期望最大化算法拟合的潜在变量和混合模型、密度估计,以及从数据本身创建训练信号的现代自监督和表示学习。
Sub-topics
Core questions
- 在没有任何标签的数据中可以恢复哪些结构?
- 如何定义和发现自然分组或聚类?
- 如何用少量坐标概括高维数据?
- 潜在变量模型如何通过隐藏原因解释观测结果?
Key theories
- 潜在变量模型和期望最大化(EM)算法
- 许多无监督模型假设存在生成数据的隐藏变量,期望最大化算法通过交替推断潜在变量和更新参数以增加似然性来拟合这些模型。
- 降维
- 主成分分析和流形学习等方法寻找保留最重要变异的低维表示,从而实现可视化、压缩和降噪。
- 聚类结构
- 聚类将数据划分为相似项的组,通过簇内距离、概率混合或密度以各种方式形式化,对于簇的数量或形状没有单一的定义。
Clinical relevance
无监督学习在标签稀缺或缺失的情况下至关重要,支持客户细分、异常检测、探索性数据分析以及为现代监督和语言系统提供动力的表示预训练;由于没有真实的目标,评估无监督结果本身就是一个微妙而重要的问题。
History
无监督学习的根源在于统计学中的聚类和因子分析以及自组织神经网络。1977年正式提出的期望最大化算法统一了潜在变量模型的拟合,近年来,自监督表示学习已成为在无标签数据上预训练大型模型的主导范式。
Debates
- 如何评估无监督结果
- 在没有标签的情况下,没有单一的正确答案,因此判断聚类或学习到的表示依赖于间接标准、下游任务性能或人工解释,并且不同的有效性度量可能会产生分歧。
Key figures
- Arthur Dempster
- Donald Rubin
- Geoffrey Hinton
- Christopher Bishop
Related topics
Seminal works
- bishop2006
- hastie2009
- dempster1977
Frequently asked questions
- 模型如何在没有标签的情况下学习任何东西?
- 无监督方法利用数据中已有的结构,例如哪些点彼此靠近、哪些方向承载了最大的变异,或者哪些潜在因子可能生成了观测结果。数据本身的规律性提供了信号。
- 为什么无监督学习难以评估?
- 没有可供比较的真实目标,因此成功是间接判断的,例如通过聚类的可解释性或学习到的表示对后续监督任务的帮助程度。不同的标准可能会对相同的结果进行不同的排名。