クラスタリングアルゴリズム
クラスタリングアルゴリズムは、データにラベルを使用せずに、類似したアイテムのグループにデータを分割し、自然な構造を明らかにします。
PaperMindでテーマを探す近日公開Find papers & topics
Tools & resources
Learn & explore
動画近日公開
Definition
クラスタリングとは、データセットを教師なしでグループに分割することであり、その際、グループ内の点は、他のグループの点よりも互いに類似しており、類似性はアプリケーションのために選択された距離または密度基準によって定義されます。
Scope
このトピックでは、k-meansのようなセントロイドベースの手法、ネストされたグループのツリーを構築する階層的凝集クラスタリング、任意の形状のクラスターを見つける密度ベースの手法、および距離尺度とクラスター数の選択といった、クラスタリングの主要なファミリーについて扱います。また、良好なクラスタリングとは何か、そしてこの問題が本質的に曖昧である理由についても考察します。
Core questions
- 点の集合をクラスターとするものは何か?
- k-meansはどのようにしてクラスター内分散を反復的に最小化するのか?
- クラスター数はどのように選択されるのか?
- 階層的または密度ベースの手法がセントロイドベースの手法よりも優れているのはどのような場合か?
Key theories
- k-meansとLloydのアルゴリズム
- k-meansは、点を最も近い中心に割り当て、中心を再計算するプロセスを交互に行うことで、クラスター中心までの総二乗距離を最小化し、この手順は局所最適解に収束します。
- 階層的クラスタリング
- 凝集型クラスタリングは、最も近いグループを繰り返しマージしてデンドログラムを構築し、あらゆる粒度でのクラスタリングを提供し、事前にクラスター数を固定する必要がありません。
- 混合モデルクラスタリング
- クラスターを確率的混合の成分として扱うことで、ソフトな割り当てと異なる形状およびサイズのクラスターが可能になり、クラスタリングと潜在変数密度推定が結びつけられます。
Clinical relevance
クラスタリングは、市場セグメンテーション、文書および画像の整理、遺伝子発現のグループ化、異常検出の基盤となり、探索的データ分析の主要なツールです。クラスタリングは選択された距離とグループ数に依存するため、結果は唯一の真実として扱うのではなく、注意深く解釈する必要があります。
History
k-means法は、1982年に発表されたLloydの1957年の量子化に関する研究と、MacQueenによる独立した定式化に由来します。階層的クラスタリングは数値分類学で発展し、DBSCANのような密度ベースの手法はクラスタリングを任意の形状のグループに拡張し、これらが教師なしグループ化の標準的なツールキットを形成しています。
Key figures
- Stuart Lloyd
- James MacQueen
- Trevor Hastie
Related topics
Seminal works
- lloyd1982
- hastie2009
- bishop2006
Frequently asked questions
- k-meansがクラスター数の選択を必要とするのはなぜですか?
- k-meansは固定された数の中心の配置を最適化するため、その数は入力となります。クラスター数を増やすと常にクラスター内距離が減少するため、その選択はエルボー法、シルエットスコア、またはドメイン知識などのヒューリスティックに依存します。
- 異なるクラスタリング手法で異なる結果が得られることはありますか?
- はい。クラスターの単一の定義がないため、セントロイド、階層的、および密度ベースの手法は、同じデータの異なる分割を生成する可能性があり、それぞれが独自の基準の下で有効です。適切な選択は、期待されるクラスターの形状と目的に依存します。