Wie entscheidet ein Dirichlet-Prozess-Mischmodell, wie viele Cluster es gibt?

Es legt die Anzahl der Cluster nicht fest; der Dirichlet-Prozess erlaubt beliebig viele, und die posteriore Verteilung, die von den Daten und dem Konzentrationsparameter bestimmt wird, weist Wahrscheinlichkeiten für verschiedene Anzahlen von besetzten Clustern zu.

Dirichlet-Prozess und Mischmodelle

Der Dirichlet-Prozess ist eine A-priori-Verteilung über Verteilungen, deren Diskretion ihn zu einer natürlichen Grundlage für Mischmodelle macht, die die Anzahl der Cluster aus den Daten ableiten.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Der Dirichlet-Prozess ist ein stochastischer Prozess, dessen Realisierungen Wahrscheinlichkeitsmaße sind; ein Dirichlet-Prozess-Mischmodell faltet diese diskreten Zufallsmaße mit einem Kernel, wodurch eine Mischung mit einer zufälligen, datenbestimmten Anzahl von Komponenten entsteht.

Scope

Dieses Thema behandelt den Dirichlet-Prozess und seine Konzentrationsparameter und Basismaße, die Darstellungen des Polya-Urnenmodells und des chinesischen Restaurantprozesses, die von ihnen induzierte Clusterbildung sowie das Dirichlet-Prozess-Mischmodell, das zur Dichteschätzung und Clusterbildung mit einer unbegrenzten Anzahl von Komponenten verwendet wird.

Core questions

Was sind der Konzentrationsparameter und das Basismaß eines Dirichlet-Prozesses?
Wie beschreiben das Polya-Urnenmodell und der chinesische Restaurantprozess seine Clusterbildung?
Wie leitet ein Dirichlet-Prozess-Mischmodell die Anzahl der Cluster ab?
Wie wird die posteriore Inferenz für diese Modelle durchgeführt?

Key concepts

Dirichlet-Prozess
Konzentrationsparameter
Basismaß
Chinesischer Restaurantprozess
Polya-Urnen-Schema
unendliches Mischmodell
Clusterbildung

Key theories

Dirichlet-Prozess: Ferguson definierte den Dirichlet-Prozess so, dass seine Werte auf jeder endlichen Partition Dirichlet-verteilt sind, was eine konjugierte, fast sicher diskrete A-priori-Verteilung über Verteilungen ergibt.
Dirichlet-Prozess-Mischungen: Das Mischen eines kontinuierlichen Kernels über ein Dirichlet-Prozess-verteiltes Maß führt zu flexiblen Dichteschätzungen und Clusterbildung mit einer unbegrenzten Anzahl von Komponenten, wobei die Inferenz mittels Gibbs-Sampling erfolgt.

Clinical relevance

Dirichlet-Prozess-Mischungen führen modellbasierte Clusterbildung und Dichteschätzung durch, ohne die Anzahl der Gruppen festzulegen, was in der Genomik, der Subtypisierung von Populationen und anderen Kontexten, in denen die Anzahl der Cluster unbekannt ist, von großem Wert ist.

History

Ferguson definierte den Dirichlet-Prozess 1973, und Antoniak führte 1974 Mischungen von Dirichlet-Prozessen ein. Der Gibbs-Sampling-Ansatz von Escobar und West aus dem Jahr 1995 machte Dirichlet-Prozess-Mischungen zu einem praktischen Werkzeug für die Dichteschätzung und Clusterbildung.

Debates

Sensitivität gegenüber dem Konzentrationsparameter: Die Anzahl der abgeleiteten Cluster hängt vom Konzentrationsparameter und dem Basismaß ab, sodass A-priori-Entscheidungen die Clustering-Ergebnisse wesentlich beeinflussen und sorgfältig gehandhabt werden müssen.

Key figures

Thomas Ferguson
Charles Antoniak
Michael Escobar
Mike West

Seminal works

ferguson1973
escobar1995

Frequently asked questions

Wie entscheidet ein Dirichlet-Prozess-Mischmodell, wie viele Cluster es gibt?: Es legt die Anzahl der Cluster nicht fest; der Dirichlet-Prozess erlaubt beliebig viele, und die posteriore Verteilung, die von den Daten und dem Konzentrationsparameter bestimmt wird, weist Wahrscheinlichkeiten für verschiedene Anzahlen von besetzten Clustern zu.