ScholarGate
Assistent

Dirichlet-Prozess und Mischmodelle

Der Dirichlet-Prozess ist eine A-priori-Verteilung über Verteilungen, deren Diskretion ihn zu einer natürlichen Grundlage für Mischmodelle macht, die die Anzahl der Cluster aus den Daten ableiten.

Thema finden mit PaperMindDemnächstFind papers & topics
Tools & resources
Folien herunterladen
Learn & explore
VideoDemnächst

Definition

Der Dirichlet-Prozess ist ein stochastischer Prozess, dessen Realisierungen Wahrscheinlichkeitsmaße sind; ein Dirichlet-Prozess-Mischmodell faltet diese diskreten Zufallsmaße mit einem Kernel, wodurch eine Mischung mit einer zufälligen, datenbestimmten Anzahl von Komponenten entsteht.

Scope

Dieses Thema behandelt den Dirichlet-Prozess und seine Konzentrationsparameter und Basismaße, die Darstellungen des Polya-Urnenmodells und des chinesischen Restaurantprozesses, die von ihnen induzierte Clusterbildung sowie das Dirichlet-Prozess-Mischmodell, das zur Dichteschätzung und Clusterbildung mit einer unbegrenzten Anzahl von Komponenten verwendet wird.

Core questions

  • Was sind der Konzentrationsparameter und das Basismaß eines Dirichlet-Prozesses?
  • Wie beschreiben das Polya-Urnenmodell und der chinesische Restaurantprozess seine Clusterbildung?
  • Wie leitet ein Dirichlet-Prozess-Mischmodell die Anzahl der Cluster ab?
  • Wie wird die posteriore Inferenz für diese Modelle durchgeführt?

Key concepts

  • Dirichlet-Prozess
  • Konzentrationsparameter
  • Basismaß
  • Chinesischer Restaurantprozess
  • Polya-Urnen-Schema
  • unendliches Mischmodell
  • Clusterbildung

Key theories

Dirichlet-Prozess
Ferguson definierte den Dirichlet-Prozess so, dass seine Werte auf jeder endlichen Partition Dirichlet-verteilt sind, was eine konjugierte, fast sicher diskrete A-priori-Verteilung über Verteilungen ergibt.
Dirichlet-Prozess-Mischungen
Das Mischen eines kontinuierlichen Kernels über ein Dirichlet-Prozess-verteiltes Maß führt zu flexiblen Dichteschätzungen und Clusterbildung mit einer unbegrenzten Anzahl von Komponenten, wobei die Inferenz mittels Gibbs-Sampling erfolgt.

Clinical relevance

Dirichlet-Prozess-Mischungen führen modellbasierte Clusterbildung und Dichteschätzung durch, ohne die Anzahl der Gruppen festzulegen, was in der Genomik, der Subtypisierung von Populationen und anderen Kontexten, in denen die Anzahl der Cluster unbekannt ist, von großem Wert ist.

History

Ferguson definierte den Dirichlet-Prozess 1973, und Antoniak führte 1974 Mischungen von Dirichlet-Prozessen ein. Der Gibbs-Sampling-Ansatz von Escobar und West aus dem Jahr 1995 machte Dirichlet-Prozess-Mischungen zu einem praktischen Werkzeug für die Dichteschätzung und Clusterbildung.

Debates

Sensitivität gegenüber dem Konzentrationsparameter
Die Anzahl der abgeleiteten Cluster hängt vom Konzentrationsparameter und dem Basismaß ab, sodass A-priori-Entscheidungen die Clustering-Ergebnisse wesentlich beeinflussen und sorgfältig gehandhabt werden müssen.

Key figures

  • Thomas Ferguson
  • Charles Antoniak
  • Michael Escobar
  • Mike West

Related topics

Seminal works

  • ferguson1973
  • escobar1995

Frequently asked questions

Wie entscheidet ein Dirichlet-Prozess-Mischmodell, wie viele Cluster es gibt?
Es legt die Anzahl der Cluster nicht fest; der Dirichlet-Prozess erlaubt beliebig viele, und die posteriore Verteilung, die von den Daten und dem Konzentrationsparameter bestimmt wird, weist Wahrscheinlichkeiten für verschiedene Anzahlen von besetzten Clustern zu.

Methods for this concept

Related concepts