ディリクレ過程混合モデルは、クラスターの数をどのように決定するのか？

クラスターの数を固定するわけではない。ディリクレ過程は任意の数のクラスターを許容し、データと集中度パラメータによって駆動される事後分布は、占有されるクラスターの異なる数に対して確率を割り当てる。

ディリクレ過程と混合モデル

ディリクレ過程は、その離散性により、データからクラスター数を推測する混合モデルの自然な基盤となる分布に対する事前分布である。

PaperMindでテーマを探す近日公開Find papers & topics

Tools & resources

Learn & explore

動画近日公開

ディリクレ過程は、その実現が確率測度である確率過程である。ディリクレ過程混合モデルは、これらの離散的な確率測度をカーネルと畳み込み、データによって決定されるランダムな数の成分を持つ混合分布を生成する。

このトピックでは、ディリクレ過程とその集中度パラメータおよび基底測度、Polyaの壺モデルと中華料理店過程の表現、それらが誘導するクラスタリング、そして無制限の数の成分を持つ密度推定とクラスタリングに用いられるディリクレ過程混合モデルについて扱う。

ディリクレ過程: Fergusonは、任意の有限分割におけるその値がディリクレ分布に従うようにディリクレ過程を定義し、分布に対する共役でほとんど確実に離散的な事前分布を与えた。
ディリクレ過程混合モデル: ディリクレ過程に従う測度上で連続カーネルを混合することにより、柔軟な密度推定と、無制限の数の成分を持つクラスタリングが可能となり、ギブスサンプリングを介した推論が行われる。

ディリクレ過程混合モデルは、グループ数を固定せずにモデルベースのクラスタリングと密度推定を実行する。これは、ゲノミクス、集団サブタイピング、およびクラスター数が不明なその他の設定において有用である。

ディリクレ過程は1973年にFergusonによって定義され、Antoniakは1974年にディリクレ過程の混合モデルを導入した。EscobarとWestによる1995年のギブスサンプリングアプローチにより、ディリクレ過程混合モデルは密度推定とクラスタリングの実用的なツールとなった。

集中度パラメータへの感度: 推測されるクラスター数は集中度パラメータと基底測度に依存するため、事前選択はクラスタリングの結果に大きく影響し、慎重に扱う必要がある。

ディリクレ過程混合モデルは、クラスターの数をどのように決定するのか？: クラスターの数を固定するわけではない。ディリクレ過程は任意の数のクラスターを許容し、データと集中度パラメータによって駆動される事後分布は、占有されるクラスターの異なる数に対して確率を割り当てる。