Pengelompokan K-Means
Pengelompokan K-means mempartisi observasi ke dalam sejumlah klaster tetap dengan meminimalkan total jumlah kuadrat jarak dalam klaster ke pusat klaster.
Definition
Pengelompokan K-means adalah metode partisi yang menempatkan sejumlah pusat klaster yang ditentukan dan menugaskan setiap observasi ke pusat terdekatnya untuk meminimalkan total jarak Euclidean kuadrat dari observasi ke pusat yang ditugaskan.
Scope
Topik ini mencakup tujuan jumlah kuadrat dalam klaster, algoritma penugasan-dan-pembaruan iteratif yang bergantian antara menugaskan titik ke pusat terdekat dan menghitung ulang pusat, ketergantungan pada inisialisasi dan hasil optima lokal, pemilihan jumlah klaster, serta asumsi dan keterbatasan metode.
Core questions
- Bagaimana observasi dapat dipartisi untuk meminimalkan dispersi dalam klaster?
- Mengapa algoritma hanya konvergen ke optimum lokal dan bagaimana hal ini diatasi?
- Bagaimana jumlah klaster dipilih?
- Bentuk dan skala klaster apa yang secara implisit diasumsikan oleh metode ini?
Key theories
- Minimisasi jumlah kuadrat dalam klaster
- K-means mencari partisi dan kumpulan pusat yang meminimalkan total jarak kuadrat dari titik ke pusat klaster mereka, sebuah tujuan di mana iterasi penugasan-pembaruan bergantian secara monoton mengurangi kriteria.
- Sensitivitas optimum lokal
- Karena tujuan bersifat non-cembung, algoritma konvergen ke minimum lokal yang bergantung pada pusat awal, yang memotivasi beberapa kali pengulangan dan penentuan awal yang cermat.
Clinical relevance
K-means adalah metode cepat dan skalabel yang umum digunakan untuk mempartisi kumpulan data besar dan digunakan dalam kuantisasi vektor, pengurangan warna gambar, segmentasi pelanggan, dan sebagai inisialisasi untuk model yang lebih kompleks.
History
Ide partisi berbasis pusat diformalkan oleh MacQueen, yang menamai k-means pada tahun 1967, berdasarkan algoritma kuantisasi Lloyd sebelumnya. Ini menjadi salah satu metode pengelompokan yang paling banyak digunakan karena kesederhanaan dan kecepatannya.
Debates
- Asumsi implisit k-means
- Meminimalkan jarak Euclidean kuadrat mendukung klaster yang kira-kira berbentuk bola, berukuran sama, sehingga k-means dapat menyesatkan ketika klaster memanjang, berukuran tidak sama, atau non-cembung, yang memotivasi alternatif berbasis model atau berbasis kepadatan.
Key figures
- James MacQueen
- Stuart Lloyd
Related topics
Seminal works
- hastie2009
- everitt2011
- macqueen1967
Frequently asked questions
- Mengapa k-means memberikan hasil yang berbeda pada setiap percobaan?
- Tujuannya bersifat non-cembung, sehingga algoritma konvergen ke optimum lokal yang bergantung pada pusat awal acak; menjalankannya beberapa kali dan menyimpan hasil terbaik adalah praktik standar.
- Bagaimana cara memilih jumlah klaster k?
- Heuristik umum meliputi 'siku' (elbow) dalam jumlah kuadrat dalam klaster, statistik celah (gap statistic), dan lebar siluet rata-rata, meskipun tidak ada yang definitif dan pengetahuan domain sering kali memandu pilihan.