ディリクレ過程と混合モデル
ディリクレ過程は、その離散性により、データからクラスター数を推測する混合モデルの自然な基盤となる分布に対する事前分布である。
PaperMindでテーマを探す近日公開Find papers & topics
Tools & resources
Learn & explore
動画近日公開
Definition
ディリクレ過程は、その実現が確率測度である確率過程である。ディリクレ過程混合モデルは、これらの離散的な確率測度をカーネルと畳み込み、データによって決定されるランダムな数の成分を持つ混合分布を生成する。
Scope
このトピックでは、ディリクレ過程とその集中度パラメータおよび基底測度、Polyaの壺モデルと中華料理店過程の表現、それらが誘導するクラスタリング、そして無制限の数の成分を持つ密度推定とクラスタリングに用いられるディリクレ過程混合モデルについて扱う。
Core questions
- ディリクレ過程の集中度パラメータと基底測度とは何か?
- Polyaの壺モデルと中華料理店過程は、そのクラスタリングをどのように記述するか?
- ディリクレ過程混合モデルは、クラスター数をどのように推測するのか?
- これらのモデルの事後推論はどのように実行されるのか?
Key concepts
- ディリクレ過程
- 集中度パラメータ
- 基底測度
- 中華料理店過程
- Polyaの壺スキーム
- 無限混合モデル
- クラスタリング
Key theories
- ディリクレ過程
- Fergusonは、任意の有限分割におけるその値がディリクレ分布に従うようにディリクレ過程を定義し、分布に対する共役でほとんど確実に離散的な事前分布を与えた。
- ディリクレ過程混合モデル
- ディリクレ過程に従う測度上で連続カーネルを混合することにより、柔軟な密度推定と、無制限の数の成分を持つクラスタリングが可能となり、ギブスサンプリングを介した推論が行われる。
Clinical relevance
ディリクレ過程混合モデルは、グループ数を固定せずにモデルベースのクラスタリングと密度推定を実行する。これは、ゲノミクス、集団サブタイピング、およびクラスター数が不明なその他の設定において有用である。
History
ディリクレ過程は1973年にFergusonによって定義され、Antoniakは1974年にディリクレ過程の混合モデルを導入した。EscobarとWestによる1995年のギブスサンプリングアプローチにより、ディリクレ過程混合モデルは密度推定とクラスタリングの実用的なツールとなった。
Debates
- 集中度パラメータへの感度
- 推測されるクラスター数は集中度パラメータと基底測度に依存するため、事前選択はクラスタリングの結果に大きく影響し、慎重に扱う必要がある。
Key figures
- Thomas Ferguson
- Charles Antoniak
- Michael Escobar
- Mike West
Related topics
Seminal works
- ferguson1973
- escobar1995
Frequently asked questions
- ディリクレ過程混合モデルは、クラスターの数をどのように決定するのか?
- クラスターの数を固定するわけではない。ディリクレ過程は任意の数のクラスターを許容し、データと集中度パラメータによって駆動される事後分布は、占有されるクラスターの異なる数に対して確率を割り当てる。