Analisis Klaster
Analisis klaster mengelompokkan observasi multivariat ke dalam klaster sehingga anggota suatu klaster lebih mirip satu sama lain dibandingkan dengan anggota klaster lain, tanpa label yang ditentukan sebelumnya.
Definition
Analisis klaster adalah partisi tanpa pengawasan atau organisasi hierarkis objek ke dalam kelompok berdasarkan ukuran kesamaan atau ketidaksamaan, dengan kelompok-kelompok yang ditemukan dari data daripada ditentukan sebelumnya.
Scope
Area ini mencakup pengelompokan data tanpa pengawasan. Ini termasuk metode hierarkis yang membangun pohon klaster bersarang, metode partisi seperti k-means yang mengoptimalkan kriteria dalam klaster untuk jumlah klaster yang tetap, dan metode berbasis model yang memperlakukan klaster sebagai komponen dari distribusi campuran. Ini juga membahas pilihan jarak, linkage, dan jumlah klaster, serta validasi solusi pengklasteran.
Sub-topics
Core questions
- Bagaimana pengelompokan alami dapat ditemukan dalam data multivariat tanpa label?
- Bagaimana kesamaan dan ketidaksamaan didefinisikan untuk objek?
- Berapa banyak klaster yang ada, dan bagaimana jumlah tersebut dipilih?
- Bagaimana solusi pengklasteran divalidasi dan diinterpretasikan?
Key theories
- Pengelompokan berbasis jarak
- Sebagian besar metode pengklasteran didasarkan pada ukuran ketidaksamaan antar objek dan aturan, seperti linkage atau jumlah kuadrat dalam klaster, yang mengubah ketidaksamaan tersebut menjadi kelompok.
- Pandangan model campuran tentang klaster
- Pengklasteran berbasis model menganggap setiap klaster sebagai komponen dari campuran probabilitas, sehingga pengklasteran menjadi estimasi parameter dan jumlah klaster menjadi masalah pemilihan model.
Clinical relevance
Analisis klaster digunakan untuk menemukan struktur dalam data tanpa label di berbagai bidang, termasuk segmentasi pasar, taksonomi, pengelompokan ekspresi gen, segmentasi gambar, dan identifikasi subtipe pasien.
History
Pengklasteran numerik berkembang dari taksonomi numerik pertengahan abad kedua puluh dan disistematisasi menjadi algoritma hierarkis dan partisi. Pengklasteran berbasis model probabilistik, yang dibangun di atas model campuran terbatas dan algoritma ekspektasi-maksimisasi, kemudian menempatkan bidang ini pada pijakan kemungkinan.
Debates
- Menentukan jumlah klaster
- Tidak ada metode tunggal yang disepakati untuk memilih jumlah klaster; kriteria berkisar dari statistik gap dan lebar siluet hingga kriteria informasi untuk model campuran, dan semuanya dapat berbeda.
Key figures
- Leonard Kaufman
- Peter Rousseeuw
- Brian Everitt
Related topics
Seminal works
- everitt2011
- kaufman1990
- hastie2009
Frequently asked questions
- Bagaimana pengklasteran berbeda dari klasifikasi?
- Pengklasteran bersifat tanpa pengawasan dan menemukan kelompok dari data tanpa label, sedangkan klasifikasi bersifat diawasi dan menetapkan observasi ke kelompok yang diketahui dan diberi label sebelumnya.
- Apakah pengklasteran selalu menemukan kelompok yang bermakna?
- Tidak. Algoritma pengklasteran akan mempartisi dataset apa pun, sehingga solusi harus divalidasi dan diinterpretasikan; klaster yang tampak mungkin mencerminkan metode atau pilihan jarak daripada struktur yang asli.