Modellbasiertes Clustering
Modellbasiertes Clustering behandelt die Daten so, als entstünden sie aus einer endlichen Mischung von Wahrscheinlichkeitsverteilungen, wobei jede Komponente einen Cluster darstellt, und schätzt das Modell mittels Maximum-Likelihood-Methode.
Definition
Modellbasiertes Clustering ist ein Ansatz, der die Population als eine Mischung von Komponentenverteilungen modelliert, jeder Beobachtung eine posteriore Wahrscheinlichkeit der Zugehörigkeit zu jeder Komponente zuweist und dadurch Cluster als die geschätzten Mischungskomponenten ableitet.
Scope
Dieses Thema behandelt endliche Mischmodelle, am häufigsten Gaußsche Mischungen, den Erwartungs-Maximierungs-Algorithmus (Expectation-Maximization-Algorithmus) zur Schätzung von Mischungsparametern und posterioren Cluster-Zugehörigkeiten, Parametrisierungen von Komponentenkovarianzen, die Form und Ausrichtung der Cluster steuern, sowie die Verwendung von Informationskriterien zur Auswahl der Anzahl der Komponenten.
Core questions
- Wie kann Clustering als statistisches Schätzproblem formuliert werden?
- Wie werden Mischungsparameter und weiche Cluster-Zugehörigkeiten geschätzt?
- Wie steuern Kovarianzparametrisierungen die Geometrie von Clustern?
- Wie wird die Anzahl der Mischungskomponenten ausgewählt?
Key theories
- Formulierung endlicher Mischungen
- Es wird angenommen, dass jede Beobachtung aus einer von mehreren Komponentenverteilungen mit unbekannten Mischungsverhältnissen stammt, sodass Clustering auf die Schätzung der Komponenten und die Zuweisung posteriorer Zugehörigkeitswahrscheinlichkeiten reduziert wird.
- Erwartungs-Maximierungs-Schätzung
- Indem Cluster-Labels als fehlende Daten behandelt werden, wechselt der EM-Algorithmus zwischen der Berechnung erwarteter Zugehörigkeiten und der Neuschätzung von Komponentenparametern, wobei er zu einer Maximum-Likelihood-Anpassung der Mischung konvergiert.
Clinical relevance
Modellbasiertes Clustering bietet probabilistische Cluster-Zuweisungen und eine prinzipiengeleitete Modellauswahl und wird in der Dichteschätzung, der Klassifizierung von Subpopulationen und in Szenarien angewendet, in denen überlappende oder unterschiedlich geformte Cluster ein statistisches Modell erfordern.
History
Endliche Mischmodelle haben eine lange statistische Geschichte, aber ihre Verwendung als Clustering-Framework erweiterte sich mit dem Erwartungs-Maximierungs-Algorithmus sowie mit Kovarianzparametrisierungen und Modellselektionskriterien, die das Gaußsche Mischungs-Clustering praktisch und weit verbreitet machten.
Debates
- Auswahl der Anzahl der Komponenten
- Informationskriterien wie das Bayessche Informationskriterium werden häufig zur Auswahl der Anzahl der Mischungskomponenten verwendet, aber die likelihood-basierte Auswahl kann empfindlich auf Modellannahmen und überlappende Komponenten reagieren.
Key figures
- Geoffrey McLachlan
- Adrian Raftery
- Chris Fraley
Related topics
Seminal works
- mclachlan2000
- fraley2002
- hastie2009
Frequently asked questions
- Wie unterscheidet sich modellbasiertes Clustering von k-Means?
- K-Means nimmt harte Zuweisungen vor, die die quadrierte Distanz minimieren, und geht implizit von sphärischen Clustern aus, während modellbasiertes Clustering eine Wahrscheinlichkeitsmischung anpasst, weiche Zugehörigkeiten liefert und Cluster unterschiedlicher Formen, Größen und Ausrichtungen modellieren kann.
- Was leistet der EM-Algorithmus hier?
- Er schätzt iterativ die Wahrscheinlichkeit, dass jede Beobachtung zu jedem Cluster gehört, und aktualisiert dann die Cluster-Verteilungen, wobei er dies wiederholt, bis sich die Mischungs-Likelihood stabilisiert.