层次聚类分析
层次聚类分析通过根据连接准则逐步合并或拆分群组,构建一个嵌套的聚类序列,并以树状图的形式可视化。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
层次聚类分析是一种聚类方法,它通过根据所选的簇间距离,迭代地组合最相似的簇或拆分内聚性最差的簇,从而生成一个嵌套划分的树。
Scope
本主题涵盖了凝聚式(自下而上)和分裂式(自上而下)层次聚类,常见的连接规则,如单连接、全连接、平均连接和Ward最小方差连接,树状图的构建和解释,以及通过剪切树状图获得平面划分的方法。
Core questions
- 如何从成对相异性构建嵌套的聚类族?
- 不同的连接规则如何影响产生的聚类?
- 如何阅读树状图以及应该在哪里剪切?
- 在什么情况下,层次结构比单一的平面划分提供更多信息?
Key theories
- 连接定义的合并
- 凝聚式聚类(Agglomerative clustering)根据连接定义重复合并两个最接近的簇;单连接、全连接、平均连接和Ward连接编码了不同的簇间距离概念,并产生具有特征性差异的簇形状。
- 树状图表示
- 合并序列被编码为树状图,其合并高度记录了相异性,允许通过在选定高度剪切树来获得任意数量的簇。
Clinical relevance
层次聚类广泛应用于嵌套分组自然或信息丰富的领域,例如构建分类学、组织基因表达热图以及探索文档或生物体相似性。
History
层次分组方法于20世纪60年代初被正式提出,其中包括Ward的最小方差准则,并随着计算机使树状图的构建成为常规操作,成为数值分类学和探索性数据分析的主要方法。
Debates
- 连接方法的选择
- 单连接可能将簇串联起来,而全连接倾向于产生紧凑的群组,Ward方法则偏爱大小相等的球形簇,因此连接方法的选择强烈影响结果,并且很少有唯一正确的选择。
Key figures
- Joe Ward
- Peter Rousseeuw
Related topics
Seminal works
- everitt2011
- kaufman1990
- wardjr1963
Frequently asked questions
- 凝聚式聚类和分裂式聚类有什么区别?
- 凝聚式聚类从每个对象作为一个单独的簇开始,然后向上合并,而分裂式聚类从一个簇开始,然后向下拆分;在实践中,凝聚式方法更为常见。
- 如何从树状图中选择聚类数量?
- 通过在选定高度剪切树,通常是在合并高度急剧跳跃的地方,这对应于合并那些比下方合并的群组相似度低得多的群组。