Clusteranalyse
Die Clusteranalyse gruppiert multivariate Beobachtungen in Clustern, sodass Mitglieder eines Clusters einander ähnlicher sind als Mitglieder anderer Cluster, ohne vordefinierte Labels.
Definition
Die Clusteranalyse ist die unüberwachte Partitionierung oder hierarchische Organisation von Objekten in Gruppen basierend auf einem Ähnlichkeits- oder Unähnlichkeitsmaß, wobei die Gruppen aus den Daten entdeckt und nicht im Voraus festgelegt werden.
Scope
Dieser Bereich umfasst die unüberwachte Gruppierung von Daten. Er beinhaltet hierarchische Methoden, die einen verschachtelten Baum von Clustern aufbauen, Partitionierungsmethoden wie k-Means, die ein Kriterium innerhalb eines Clusters für eine feste Anzahl von Clustern optimieren, und modellbasierte Methoden, die Cluster als Komponenten einer Mischverteilung behandeln. Er befasst sich auch mit der Wahl von Distanz, Verknüpfung und der Anzahl der Cluster sowie der Validierung von Clustering-Lösungen.
Sub-topics
Core questions
- Wie können natürliche Gruppierungen in unbeschrifteten multivariaten Daten entdeckt werden?
- Wie werden Ähnlichkeit und Unähnlichkeit für die Objekte definiert?
- Wie viele Cluster sind vorhanden und wie wird diese Zahl gewählt?
- Wie wird eine Clustering-Lösung validiert und interpretiert?
Key theories
- Distanzbasierte Gruppierung
- Die meisten Clustering-Methoden basieren auf einem Unähnlichkeitsmaß zwischen Objekten und einer Regel, wie einer Verknüpfung oder einer Summe der Quadrate innerhalb eines Clusters, die diese Unähnlichkeiten in Gruppen umwandelt.
- Mischmodell-Ansicht von Clustern
- Modellbasiertes Clustering betrachtet jeden Cluster als eine Komponente einer Wahrscheinlichkeitsmischung, sodass Clustering zur Parameterschätzung und die Anzahl der Cluster zu einem Modellselektionsproblem wird.
Clinical relevance
Die Clusteranalyse wird verwendet, um Strukturen in unbeschrifteten Daten in verschiedenen Bereichen zu entdecken, einschließlich Marktsegmentierung, Taxonomie, Genexpressionsgruppierung, Bildsegmentierung und der Identifizierung von Patientensubtypen.
History
Das numerische Clustering entwickelte sich aus der numerischen Taxonomie Mitte des 20. Jahrhunderts und wurde zu hierarchischen und partitionierenden Algorithmen systematisiert. Das probabilistische modellbasierte Clustering, das auf endlichen Mischmodellen und dem Erwartungs-Maximierungs-Algorithmus aufbaut, stellte das Feld später auf eine Likelihood-Basis.
Debates
- Bestimmung der Anzahl der Cluster
- Es gibt keine einzige anerkannte Methode zur Wahl der Anzahl der Cluster; die Kriterien reichen von Gap-Statistiken und Silhouettenbreiten bis hin zu Informationskriterien für Mischmodelle, und sie können voneinander abweichen.
Key figures
- Leonard Kaufman
- Peter Rousseeuw
- Brian Everitt
Related topics
Seminal works
- everitt2011
- kaufman1990
- hastie2009
Frequently asked questions
- Wie unterscheidet sich Clustering von Klassifikation?
- Clustering ist unüberwacht und entdeckt Gruppen aus unbeschrifteten Daten, während Klassifikation überwacht ist und Beobachtungen bekannten und im Voraus beschrifteten Gruppen zuordnet.
- Findet Clustering immer sinnvolle Gruppen?
- Nein. Clustering-Algorithmen partitionieren jeden Datensatz, daher müssen Lösungen validiert und interpretiert werden; scheinbare Cluster können eher die Methode oder die Distanzwahl widerspiegeln als eine echte Struktur.