Wie unterscheidet sich modellbasiertes Clustering von k-Means?

K-Means nimmt harte Zuweisungen vor, die die quadrierte Distanz minimieren, und geht implizit von sphärischen Clustern aus, während modellbasiertes Clustering eine Wahrscheinlichkeitsmischung anpasst, weiche Zugehörigkeiten liefert und Cluster unterschiedlicher Formen, Größen und Ausrichtungen modellieren kann.

Was leistet der EM-Algorithmus hier?

Er schätzt iterativ die Wahrscheinlichkeit, dass jede Beobachtung zu jedem Cluster gehört, und aktualisiert dann die Cluster-Verteilungen, wobei er dies wiederholt, bis sich die Mischungs-Likelihood stabilisiert.

Modellbasiertes Clustering

Modellbasiertes Clustering behandelt die Daten so, als entstünden sie aus einer endlichen Mischung von Wahrscheinlichkeitsverteilungen, wobei jede Komponente einen Cluster darstellt, und schätzt das Modell mittels Maximum-Likelihood-Methode.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Modellbasiertes Clustering ist ein Ansatz, der die Population als eine Mischung von Komponentenverteilungen modelliert, jeder Beobachtung eine posteriore Wahrscheinlichkeit der Zugehörigkeit zu jeder Komponente zuweist und dadurch Cluster als die geschätzten Mischungskomponenten ableitet.

Scope

Dieses Thema behandelt endliche Mischmodelle, am häufigsten Gaußsche Mischungen, den Erwartungs-Maximierungs-Algorithmus (Expectation-Maximization-Algorithmus) zur Schätzung von Mischungsparametern und posterioren Cluster-Zugehörigkeiten, Parametrisierungen von Komponentenkovarianzen, die Form und Ausrichtung der Cluster steuern, sowie die Verwendung von Informationskriterien zur Auswahl der Anzahl der Komponenten.

Core questions

Wie kann Clustering als statistisches Schätzproblem formuliert werden?
Wie werden Mischungsparameter und weiche Cluster-Zugehörigkeiten geschätzt?
Wie steuern Kovarianzparametrisierungen die Geometrie von Clustern?
Wie wird die Anzahl der Mischungskomponenten ausgewählt?

Key theories

Formulierung endlicher Mischungen: Es wird angenommen, dass jede Beobachtung aus einer von mehreren Komponentenverteilungen mit unbekannten Mischungsverhältnissen stammt, sodass Clustering auf die Schätzung der Komponenten und die Zuweisung posteriorer Zugehörigkeitswahrscheinlichkeiten reduziert wird.
Erwartungs-Maximierungs-Schätzung: Indem Cluster-Labels als fehlende Daten behandelt werden, wechselt der EM-Algorithmus zwischen der Berechnung erwarteter Zugehörigkeiten und der Neuschätzung von Komponentenparametern, wobei er zu einer Maximum-Likelihood-Anpassung der Mischung konvergiert.

Clinical relevance

Modellbasiertes Clustering bietet probabilistische Cluster-Zuweisungen und eine prinzipiengeleitete Modellauswahl und wird in der Dichteschätzung, der Klassifizierung von Subpopulationen und in Szenarien angewendet, in denen überlappende oder unterschiedlich geformte Cluster ein statistisches Modell erfordern.

History

Endliche Mischmodelle haben eine lange statistische Geschichte, aber ihre Verwendung als Clustering-Framework erweiterte sich mit dem Erwartungs-Maximierungs-Algorithmus sowie mit Kovarianzparametrisierungen und Modellselektionskriterien, die das Gaußsche Mischungs-Clustering praktisch und weit verbreitet machten.

Debates

Auswahl der Anzahl der Komponenten: Informationskriterien wie das Bayessche Informationskriterium werden häufig zur Auswahl der Anzahl der Mischungskomponenten verwendet, aber die likelihood-basierte Auswahl kann empfindlich auf Modellannahmen und überlappende Komponenten reagieren.

Key figures

Geoffrey McLachlan
Adrian Raftery
Chris Fraley

Seminal works

mclachlan2000
fraley2002
hastie2009

Frequently asked questions

Wie unterscheidet sich modellbasiertes Clustering von k-Means?: K-Means nimmt harte Zuweisungen vor, die die quadrierte Distanz minimieren, und geht implizit von sphärischen Clustern aus, während modellbasiertes Clustering eine Wahrscheinlichkeitsmischung anpasst, weiche Zugehörigkeiten liefert und Cluster unterschiedlicher Formen, Größen und Ausrichtungen modellieren kann.
Was leistet der EM-Algorithmus hier?: Er schätzt iterativ die Wahrscheinlichkeit, dass jede Beobachtung zu jedem Cluster gehört, und aktualisiert dann die Cluster-Verteilungen, wobei er dies wiederholt, bis sich die Mischungs-Likelihood stabilisiert.