階層的クラスター分析
階層的クラスター分析は、連結基準に従ってグループを連続的に結合または分割することにより、デンドログラムとして視覚化されるネストされたクラスターのシーケンスを構築します。
PaperMindでテーマを探す近日公開Find papers & topics
Tools & resources
Learn & explore
動画近日公開
Definition
階層的クラスター分析は、選択されたクラスター間距離に従って、最も類似したクラスターを反復的に結合するか、最も結合度の低いクラスターを分割することにより、ネストされた分割のツリーを生成するクラスタリングアプローチです。
Scope
このトピックでは、凝集型(ボトムアップ)および分割型(トップダウン)の階層的クラスタリング、単一連結、完全連結、平均連結、ウォード法による最小分散連結などの一般的な連結規則、デンドログラムの構築と解釈、およびフラットな分割を得るためのツリーの切断について説明します。
Core questions
- ペアワイズの非類似度から、ネストされたクラスタリングのファミリーをどのように構築できますか?
- 異なる連結規則は、結果として生じるクラスターをどのように形成しますか?
- デンドログラムはどのように読み取られ、どこで切断すべきですか?
- 単一のフラットな分割よりも階層構造がより有益なのはどのような場合ですか?
Key theories
- 連結によって定義される結合
- 凝集型クラスタリングは、連結定義の下で最も近い2つのクラスターを繰り返し結合します。単一連結、完全連結、平均連結、ウォード連結は、クラスター間距離の異なる概念を符号化し、特徴的に異なるクラスター形状を生成します。
- デンドログラム表現
- 結合のシーケンスは、結合の高さが非類似度を記録するデンドログラムとして符号化され、選択された高さでツリーを切断することにより、任意の数のクラスターを得ることができます。
Clinical relevance
階層的クラスタリングは、分類法の構築、遺伝子発現ヒートマップの整理、文書や生物の類似性の探索など、ネストされたグループ化が自然または有益である場合に広く使用されています。
History
階層的グループ化手法は1960年代初頭に形式化され、ウォードの最小分散基準などが含まれ、コンピューティングによってデンドログラムの構築が日常的になるにつれて、数値分類学および探索的データ分析の主要な手法となりました。
Debates
- 連結の選択
- 単一連結はクラスターを連鎖させる傾向があるのに対し、完全連結はコンパクトなグループを生成する傾向があり、ウォード法は等サイズの球状クラスターを好むため、連結の選択は結果を強く形成し、唯一の正解であることは稀です。
Key figures
- Joe Ward
- Peter Rousseeuw
Related topics
Seminal works
- everitt2011
- kaufman1990
- wardjr1963
Frequently asked questions
- 凝集型クラスタリングと分割型クラスタリングの違いは何ですか?
- 凝集型クラスタリングは、各オブジェクトをそれ自身のクラスターとして開始し、上向きに結合するのに対し、分割型クラスタリングは1つのクラスターから開始し、下向きに分割します。実際には凝集型手法の方がはるかに一般的です。
- デンドログラムからクラスターの数をどのように選択しますか?
- ツリーを選択した高さで切断することによって行われます。これは、結合の高さが急激に跳ね上がる場所であることが多く、これは、それより下で結合されたグループよりもはるかに類似性の低いグループを結合することに対応します。