モデルベースクラスタリング
モデルベースクラスタリングは、データを確率分布の有限混合に由来するものとして扱い、各コンポーネントをクラスターとして表現し、最尤法によってモデルを推定します。
PaperMindでテーマを探す近日公開Find papers & topics
Tools & resources
Learn & explore
動画近日公開
Definition
モデルベースクラスタリングは、母集団をコンポーネント分布の混合としてモデル化し、各観測値に各コンポーネントに属する事後確率を割り当て、それによって推定された混合コンポーネントとしてクラスターを導出するアプローチです。
Scope
このトピックでは、有限混合モデル(最も一般的にはガウス混合)、混合パラメーターと事後クラスターメンバーシップを推定するための期待値最大化アルゴリズム、クラスターの形状と向きを制御するコンポーネント共分散のパラメーター化、およびコンポーネント数を選択するための情報量基準の使用について扱います。
Core questions
- クラスタリングは統計的推定問題としてどのように定式化できるでしょうか?
- 混合パラメーターとソフトクラスターメンバーシップはどのように推定されるでしょうか?
- 共分散のパラメーター化はクラスターの幾何学的形状をどのように制御するでしょうか?
- 混合コンポーネントの数はどのように選択されるでしょうか?
Key theories
- 有限混合の定式化
- 各観測値は、未知の混合比率を持ついくつかのコンポーネント分布のいずれかから抽出されたものと仮定されるため、クラスタリングはコンポーネントを推定し、事後メンバーシップ確率を割り当てることに帰着します。
- 期待値最大化推定
- クラスターラベルを欠損データとして扱うEMアルゴリズムは、期待されるメンバーシップの計算とコンポーネントパラメーターの再推定を交互に行い、混合の最尤適合に収束します。
Clinical relevance
モデルベースクラスタリングは、確率的クラスター割り当てと原則に基づいたモデル選択を提供し、密度推定、サブポピュレーションの分類、および重複するクラスターや異なる形状のクラスターが統計モデルを必要とする設定で適用されます。
History
有限混合モデルには長い統計的歴史がありますが、そのクラスタリングフレームワークとしての使用は、期待値最大化アルゴリズム、およびガウス混合クラスタリングを実用的かつ広く利用可能にした共分散パラメーター化とモデル選択基準の登場により拡大しました。
Debates
- コンポーネント数の選択
- ベイズ情報量基準などの情報量基準は、混合コンポーネントの数を選択するためによく使用されますが、尤度ベースの選択は、モデルの仮定や重複するコンポーネントに敏感である可能性があります。
Key figures
- Geoffrey McLachlan
- Adrian Raftery
- Chris Fraley
Related topics
Seminal works
- mclachlan2000
- fraley2002
- hastie2009
Frequently asked questions
- モデルベースクラスタリングはk-meansとどのように異なりますか?
- K-meansは二乗距離を最小化するハードな割り当てを行い、暗黙的に球状のクラスターを仮定しますが、モデルベースクラスタリングは確率混合を適合させ、ソフトなメンバーシップを与え、異なる形状、サイズ、向きのクラスターをモデル化できます。
- EMアルゴリズムはここで何をしますか?
- 各観測値が各クラスターに属する確率を繰り返し推定し、その後クラスター分布を更新し、混合尤度が安定するまで繰り返します。