ScholarGate
Assistent

K-Means-Clustering

Das K-Means-Clustering teilt Beobachtungen in eine feste Anzahl von Clustern ein, indem es die gesamte Summe der quadrierten Abstände innerhalb der Cluster zu den Cluster-Schwerpunkten minimiert.

Thema finden mit PaperMindDemnächstFind papers & topics
Tools & resources
Folien herunterladen
Learn & explore
VideoDemnächst

Definition

K-Means-Clustering ist eine Partitionierungsmethode, die eine vorgegebene Anzahl von Clusterzentren platziert und jede Beobachtung ihrem nächsten Zentrum zuweist, um die gesamte quadrierte euklidische Distanz von Beobachtungen zu ihren zugewiesenen Zentren zu minimieren.

Scope

Dieses Thema behandelt die Zielsetzung der Summe der Quadrate innerhalb der Cluster, den iterativen Zuweisungs- und Aktualisierungsalgorithmus, der zwischen der Zuweisung von Punkten zum nächsten Schwerpunkt und der Neuberechnung der Schwerpunkte wechselt, die Abhängigkeit von der Initialisierung und die daraus resultierenden lokalen Optima, die Wahl der Anzahl der Cluster sowie die Annahmen und Einschränkungen der Methode.

Core questions

  • Wie können Beobachtungen partitioniert werden, um die Streuung innerhalb der Cluster zu minimieren?
  • Warum konvergiert der Algorithmus nur zu einem lokalen Optimum und wie wird dies gemildert?
  • Wie wird die Anzahl der Cluster gewählt?
  • Welche Clusterformen und -skalen nimmt die Methode implizit an?

Key theories

Minimierung der Summe der Quadrate innerhalb der Cluster
K-Means sucht die Partition und den Satz von Schwerpunkten, die den gesamten quadrierten Abstand von Punkten zu ihren Clusterzentren minimieren, ein Ziel, für das die alternierende Zuweisungs- und Aktualisierungsiteration das Kriterium monoton verringert.
Empfindlichkeit gegenüber lokalen Optima
Da die Zielfunktion nicht konvex ist, konvergiert der Algorithmus zu einem lokalen Minimum, das von den anfänglichen Zentren abhängt, was mehrere Neustarts und eine sorgfältige Initialisierung motiviert.

Clinical relevance

K-Means ist eine schnelle, skalierbare Standardmethode zur Partitionierung großer Datensätze und wird in der Vektorquantisierung, der Bildfarbreduktion, der Kundensegmentierung und als Initialisierung für komplexere Modelle eingesetzt.

History

Die Idee der schwerpunktbasierten Partitionierung wurde 1967 von MacQueen formalisiert, der K-Means benannte und auf Lloyds früherem Quantisierungsalgorithmus aufbaute. Aufgrund seiner Einfachheit und Geschwindigkeit wurde es zu einer der am weitesten verbreiteten Clustering-Methoden.

Debates

Implizite Annahmen von K-Means
Die Minimierung der quadrierten euklidischen Distanz begünstigt annähernd kugelförmige, gleich große Cluster, sodass K-Means irreführend sein kann, wenn Cluster länglich, ungleich groß oder nicht-konvex sind, was modellbasierte oder dichte-basierte Alternativen motiviert.

Key figures

  • James MacQueen
  • Stuart Lloyd

Related topics

Seminal works

  • hastie2009
  • everitt2011
  • macqueen1967

Frequently asked questions

Warum liefert K-Means bei verschiedenen Durchläufen unterschiedliche Ergebnisse?
Die Zielfunktion ist nicht konvex, daher konvergiert der Algorithmus zu einem lokalen Optimum, das von den zufälligen Initialzentren abhängt; es ist gängige Praxis, ihn mehrmals auszuführen und das beste Ergebnis zu behalten.
Wie wähle ich die Anzahl der Cluster k?
Gängige Heuristiken umfassen den „Ellenbogen“ in der Summe der Quadrate innerhalb der Cluster, die Gap-Statistik und die durchschnittliche Silhouettenbreite, obwohl keine davon definitiv ist und Domänenwissen oft die Wahl leitet.

Methods for this concept

Related concepts