ScholarGate
Assistent

Modellbasiertes Clustering

Modellbasiertes Clustering behandelt die Daten so, als entstünden sie aus einer endlichen Mischung von Wahrscheinlichkeitsverteilungen, wobei jede Komponente einen Cluster darstellt, und schätzt das Modell mittels Maximum-Likelihood-Methode.

Thema finden mit PaperMindDemnächstFind papers & topics
Tools & resources
Folien herunterladen
Learn & explore
VideoDemnächst

Definition

Modellbasiertes Clustering ist ein Ansatz, der die Population als eine Mischung von Komponentenverteilungen modelliert, jeder Beobachtung eine posteriore Wahrscheinlichkeit der Zugehörigkeit zu jeder Komponente zuweist und dadurch Cluster als die geschätzten Mischungskomponenten ableitet.

Scope

Dieses Thema behandelt endliche Mischmodelle, am häufigsten Gaußsche Mischungen, den Erwartungs-Maximierungs-Algorithmus (Expectation-Maximization-Algorithmus) zur Schätzung von Mischungsparametern und posterioren Cluster-Zugehörigkeiten, Parametrisierungen von Komponentenkovarianzen, die Form und Ausrichtung der Cluster steuern, sowie die Verwendung von Informationskriterien zur Auswahl der Anzahl der Komponenten.

Core questions

  • Wie kann Clustering als statistisches Schätzproblem formuliert werden?
  • Wie werden Mischungsparameter und weiche Cluster-Zugehörigkeiten geschätzt?
  • Wie steuern Kovarianzparametrisierungen die Geometrie von Clustern?
  • Wie wird die Anzahl der Mischungskomponenten ausgewählt?

Key theories

Formulierung endlicher Mischungen
Es wird angenommen, dass jede Beobachtung aus einer von mehreren Komponentenverteilungen mit unbekannten Mischungsverhältnissen stammt, sodass Clustering auf die Schätzung der Komponenten und die Zuweisung posteriorer Zugehörigkeitswahrscheinlichkeiten reduziert wird.
Erwartungs-Maximierungs-Schätzung
Indem Cluster-Labels als fehlende Daten behandelt werden, wechselt der EM-Algorithmus zwischen der Berechnung erwarteter Zugehörigkeiten und der Neuschätzung von Komponentenparametern, wobei er zu einer Maximum-Likelihood-Anpassung der Mischung konvergiert.

Clinical relevance

Modellbasiertes Clustering bietet probabilistische Cluster-Zuweisungen und eine prinzipiengeleitete Modellauswahl und wird in der Dichteschätzung, der Klassifizierung von Subpopulationen und in Szenarien angewendet, in denen überlappende oder unterschiedlich geformte Cluster ein statistisches Modell erfordern.

History

Endliche Mischmodelle haben eine lange statistische Geschichte, aber ihre Verwendung als Clustering-Framework erweiterte sich mit dem Erwartungs-Maximierungs-Algorithmus sowie mit Kovarianzparametrisierungen und Modellselektionskriterien, die das Gaußsche Mischungs-Clustering praktisch und weit verbreitet machten.

Debates

Auswahl der Anzahl der Komponenten
Informationskriterien wie das Bayessche Informationskriterium werden häufig zur Auswahl der Anzahl der Mischungskomponenten verwendet, aber die likelihood-basierte Auswahl kann empfindlich auf Modellannahmen und überlappende Komponenten reagieren.

Key figures

  • Geoffrey McLachlan
  • Adrian Raftery
  • Chris Fraley

Related topics

Seminal works

  • mclachlan2000
  • fraley2002
  • hastie2009

Frequently asked questions

Wie unterscheidet sich modellbasiertes Clustering von k-Means?
K-Means nimmt harte Zuweisungen vor, die die quadrierte Distanz minimieren, und geht implizit von sphärischen Clustern aus, während modellbasiertes Clustering eine Wahrscheinlichkeitsmischung anpasst, weiche Zugehörigkeiten liefert und Cluster unterschiedlicher Formen, Größen und Ausrichtungen modellieren kann.
Was leistet der EM-Algorithmus hier?
Er schätzt iterativ die Wahrscheinlichkeit, dass jede Beobachtung zu jedem Cluster gehört, und aktualisiert dann die Cluster-Verteilungen, wobei er dies wiederholt, bis sich die Mischungs-Likelihood stabilisiert.

Methods for this concept

Related concepts