聚类算法
聚类算法将数据划分为相似项的组,在不使用任何标签的情况下揭示数据的自然结构。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
聚类是将数据集无监督地划分为多个组,使得组内的点彼此之间比与组外点更相似,其中相似性由为特定应用选择的距离或密度准则定义。
Scope
本主题涵盖了主要的聚类家族:基于质心的方法(如k-均值)、构建嵌套组树的层次凝聚聚类、发现任意形状簇的基于密度的方法,以及距离度量和簇数量的选择。它探讨了如何定义一个好的聚类以及为什么这个问题本质上是模糊的。
Core questions
- 什么使一组点成为一个簇?
- k-均值如何迭代地最小化簇内方差?
- 如何选择簇的数量?
- 层次或基于密度的方法何时优于基于质心的方法?
Key theories
- k-均值和Lloyd算法
- k-均值通过交替将点分配到最近的中心和重新计算中心来最小化到簇中心的总平方距离,该过程收敛到局部最优解。
- 层次聚类
- 凝聚聚类重复合并最接近的组以构建树状图,提供各种粒度的聚类,并避免了预先固定簇数量的需要。
- 混合模型聚类
- 将簇视为概率混合的组成部分,允许软分配和不同形状、大小的簇,将聚类与潜在变量密度估计联系起来。
Clinical relevance
聚类是市场细分、文档和图像组织、基因表达分组以及异常检测的基础,也是探索性数据分析的主要工具;由于聚类结果取决于所选的距离和组的数量,因此必须谨慎解释结果,而不是将其视为唯一的真实情况。
History
k-均值过程可追溯到Lloyd于1957年(1982年发表)的量化工作,以及MacQueen的独立公式。层次聚类起源于数值分类学,而DBSCAN等基于密度的方法将聚类扩展到任意形状的组,共同构成了无监督分组的标准工具包。
Key figures
- Stuart Lloyd
- James MacQueen
- Trevor Hastie
Related topics
Seminal works
- lloyd1982
- hastie2009
- bishop2006
Frequently asked questions
- 为什么k-均值需要选择簇的数量?
- k-均值优化固定数量中心的放置,因此该数量是一个输入。选择它依赖于启发式方法,如肘部法则、轮廓系数或领域知识,因为增加更多簇总是会减少簇内距离。
- 不同的聚类方法会给出不同的结果吗?
- 是的。因为簇没有单一的定义,基于质心、层次和基于密度的方法可以对相同数据产生不同的划分,每种划分在其自身准则下都是有效的。正确的选择取决于预期的簇形状和目标。