Wie unterscheidet sich Clustering von Klassifikation?

Clustering ist unüberwacht und entdeckt Gruppen aus unbeschrifteten Daten, während Klassifikation überwacht ist und Beobachtungen bekannten und im Voraus beschrifteten Gruppen zuordnet.

Findet Clustering immer sinnvolle Gruppen?

Nein. Clustering-Algorithmen partitionieren jeden Datensatz, daher müssen Lösungen validiert und interpretiert werden; scheinbare Cluster können eher die Methode oder die Distanzwahl widerspiegeln als eine echte Struktur.

Clusteranalyse

Die Clusteranalyse gruppiert multivariate Beobachtungen in Clustern, sodass Mitglieder eines Clusters einander ähnlicher sind als Mitglieder anderer Cluster, ohne vordefinierte Labels.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Die Clusteranalyse ist die unüberwachte Partitionierung oder hierarchische Organisation von Objekten in Gruppen basierend auf einem Ähnlichkeits- oder Unähnlichkeitsmaß, wobei die Gruppen aus den Daten entdeckt und nicht im Voraus festgelegt werden.

Scope

Dieser Bereich umfasst die unüberwachte Gruppierung von Daten. Er beinhaltet hierarchische Methoden, die einen verschachtelten Baum von Clustern aufbauen, Partitionierungsmethoden wie k-Means, die ein Kriterium innerhalb eines Clusters für eine feste Anzahl von Clustern optimieren, und modellbasierte Methoden, die Cluster als Komponenten einer Mischverteilung behandeln. Er befasst sich auch mit der Wahl von Distanz, Verknüpfung und der Anzahl der Cluster sowie der Validierung von Clustering-Lösungen.

Sub-topics

Core questions

Wie können natürliche Gruppierungen in unbeschrifteten multivariaten Daten entdeckt werden?
Wie werden Ähnlichkeit und Unähnlichkeit für die Objekte definiert?
Wie viele Cluster sind vorhanden und wie wird diese Zahl gewählt?
Wie wird eine Clustering-Lösung validiert und interpretiert?

Key theories

Distanzbasierte Gruppierung: Die meisten Clustering-Methoden basieren auf einem Unähnlichkeitsmaß zwischen Objekten und einer Regel, wie einer Verknüpfung oder einer Summe der Quadrate innerhalb eines Clusters, die diese Unähnlichkeiten in Gruppen umwandelt.
Mischmodell-Ansicht von Clustern: Modellbasiertes Clustering betrachtet jeden Cluster als eine Komponente einer Wahrscheinlichkeitsmischung, sodass Clustering zur Parameterschätzung und die Anzahl der Cluster zu einem Modellselektionsproblem wird.

Clinical relevance

Die Clusteranalyse wird verwendet, um Strukturen in unbeschrifteten Daten in verschiedenen Bereichen zu entdecken, einschließlich Marktsegmentierung, Taxonomie, Genexpressionsgruppierung, Bildsegmentierung und der Identifizierung von Patientensubtypen.

History

Das numerische Clustering entwickelte sich aus der numerischen Taxonomie Mitte des 20. Jahrhunderts und wurde zu hierarchischen und partitionierenden Algorithmen systematisiert. Das probabilistische modellbasierte Clustering, das auf endlichen Mischmodellen und dem Erwartungs-Maximierungs-Algorithmus aufbaut, stellte das Feld später auf eine Likelihood-Basis.

Debates

Bestimmung der Anzahl der Cluster: Es gibt keine einzige anerkannte Methode zur Wahl der Anzahl der Cluster; die Kriterien reichen von Gap-Statistiken und Silhouettenbreiten bis hin zu Informationskriterien für Mischmodelle, und sie können voneinander abweichen.

Key figures

Leonard Kaufman
Peter Rousseeuw
Brian Everitt

Seminal works

everitt2011
kaufman1990
hastie2009

Frequently asked questions

Wie unterscheidet sich Clustering von Klassifikation?: Clustering ist unüberwacht und entdeckt Gruppen aus unbeschrifteten Daten, während Klassifikation überwacht ist und Beobachtungen bekannten und im Voraus beschrifteten Gruppen zuordnet.
Findet Clustering immer sinnvolle Gruppen?: Nein. Clustering-Algorithmen partitionieren jeden Datensatz, daher müssen Lösungen validiert und interpretiert werden; scheinbare Cluster können eher die Methode oder die Distanzwahl widerspiegeln als eine echte Struktur.