Latente Variablen- und Mischmodelle
Latente Variablen- und Mischmodelle erklären beobachtete Daten durch verborgene Variablen und passen diese an, indem sie abwechselnd die verborgene Struktur inferieren und Parameter aktualisieren.
Definition
Ein latentes Variablenmodell stellt jede Beobachtung so dar, als wäre sie mithilfe unbeobachteter Variablen generiert worden, z. B. welche Mischungskomponente einen Punkt erzeugt hat; der Erwartungs-Maximierungs-Algorithmus schätzt Parameter, indem er zwischen der Berechnung erwarteter Werte der latenten Variablen und der Maximierung der resultierenden erwarteten Likelihood iteriert.
Scope
Dieses Thema behandelt probabilistische Modelle mit unbeobachteten Variablen: endliche Mischmodelle wie die Gaußsche Mischung, Hidden-Markov-Modelle für Sequenzen und den Erwartungs-Maximierungs-Algorithmus, der sie durch Maximierung der Likelihood anpasst. Es behandelt auch die Verbindung zu Soft Clustering, Dichteschätzung und die variationale Sichtweise von EM als Begrenzung der Daten-Likelihood.
Core questions
- Wie erklären verborgene Variablen beobachtete Daten?
- Wie erhöht der Erwartungs-Maximierungs-Algorithmus die Likelihood bei jedem Schritt?
- Wie führen Gaußsche Mischungen Soft Clustering und Dichteschätzung durch?
- Warum konvergiert EM möglicherweise nur zu einem lokalen Optimum?
Key theories
- Der Erwartungs-Maximierungs-Algorithmus
- EM wechselt einen Erwartungsschritt, der die Verteilung über latente Variablen inferiert, mit einem Maximierungsschritt ab, der Parameter aktualisiert, wobei die Daten-Likelihood nachweislich niemals abnimmt und zu einem stationären Punkt konvergiert.
- Gaußsche Mischmodelle
- Die Modellierung von Daten als gewichtete Summe von Gaußschen Komponenten liefert flexible Dichteschätzungen und weiche Clusterzuweisungen, wobei jedem Punkt eine Wahrscheinlichkeit zugewiesen wird, zu jeder Komponente zu gehören.
- EM als Maximierung einer unteren Schranke
- EM kann als Maximierung einer variationalen unteren Schranke der Log-Likelihood angesehen werden, eine Perspektive, die sich auf die approximative Inferenz in komplexeren latenten Variablenmodellen verallgemeinern lässt.
Clinical relevance
Latente Variablenmodelle untermauern Soft Clustering, Dichteschätzung, Imputation fehlender Daten und Sequenzmodellierung mit Hidden-Markov-Modellen in der Sprach- und Bioinformatik; der Erwartungs-Maximierungs-Algorithmus, auf dem sie basieren, ist eines der am weitesten verbreiteten Optimierungsverfahren in der Statistik und im maschinellen Lernen.
History
Spezialfälle der Erwartungs-Maximierungs-Idee traten in der Genetik und bei Problemen mit unvollständigen Daten auf, bevor Dempster, Laird und Rubin 1977 die allgemeine Formulierung gaben. Gaußsche Mischungen und Hidden-Markov-Modelle wurden zu Standardwerkzeugen für latente Variablen, und die variationale Neuinterpretation von EM verband es später mit modernen Methoden der approximativen Inferenz.
Key figures
- Arthur Dempster
- Nan Laird
- Donald Rubin
Related topics
Seminal works
- dempster1977
- bishop2006
- murphy2012
Frequently asked questions
- Was ist eine latente Variable?
- Eine latente Variable ist eine unbeobachtete Größe, die in ein Modell aufgenommen wird, um die beobachteten Daten zu erklären, z. B. welcher verborgene Cluster einen Datenpunkt generiert hat. Das Modell inferiert eine Verteilung über diese verborgenen Variablen, anstatt sie direkt zu messen.
- Warum kann der EM-Algorithmus stecken bleiben?
- EM erhöht die Likelihood bei jedem Schritt, garantiert aber nur die Konvergenz zu einem lokalen Maximum oder einem stationären Punkt. Unterschiedliche Initialisierungen können zu unterschiedlichen Lösungen führen, daher führen Praktiker ihn oft mehrmals mit verschiedenen Startwerten aus.