Bagaimana pengklasteran berbeda dari klasifikasi?

Pengklasteran bersifat tanpa pengawasan dan menemukan kelompok dari data tanpa label, sedangkan klasifikasi bersifat diawasi dan menetapkan observasi ke kelompok yang diketahui dan diberi label sebelumnya.

Apakah pengklasteran selalu menemukan kelompok yang bermakna?

Tidak. Algoritma pengklasteran akan mempartisi dataset apa pun, sehingga solusi harus divalidasi dan diinterpretasikan; klaster yang tampak mungkin mencerminkan metode atau pilihan jarak daripada struktur yang asli.

Analisis Klaster

Analisis klaster mengelompokkan observasi multivariat ke dalam klaster sehingga anggota suatu klaster lebih mirip satu sama lain dibandingkan dengan anggota klaster lain, tanpa label yang ditentukan sebelumnya.

Temukan Topik dengan PaperMindSegeraFind papers & topics

Tools & resources

Unduh salindia

Learn & explore

VideoSegera

Definition

Analisis klaster adalah partisi tanpa pengawasan atau organisasi hierarkis objek ke dalam kelompok berdasarkan ukuran kesamaan atau ketidaksamaan, dengan kelompok-kelompok yang ditemukan dari data daripada ditentukan sebelumnya.

Scope

Area ini mencakup pengelompokan data tanpa pengawasan. Ini termasuk metode hierarkis yang membangun pohon klaster bersarang, metode partisi seperti k-means yang mengoptimalkan kriteria dalam klaster untuk jumlah klaster yang tetap, dan metode berbasis model yang memperlakukan klaster sebagai komponen dari distribusi campuran. Ini juga membahas pilihan jarak, linkage, dan jumlah klaster, serta validasi solusi pengklasteran.

Sub-topics

Core questions

Bagaimana pengelompokan alami dapat ditemukan dalam data multivariat tanpa label?
Bagaimana kesamaan dan ketidaksamaan didefinisikan untuk objek?
Berapa banyak klaster yang ada, dan bagaimana jumlah tersebut dipilih?
Bagaimana solusi pengklasteran divalidasi dan diinterpretasikan?

Key theories

Pengelompokan berbasis jarak: Sebagian besar metode pengklasteran didasarkan pada ukuran ketidaksamaan antar objek dan aturan, seperti linkage atau jumlah kuadrat dalam klaster, yang mengubah ketidaksamaan tersebut menjadi kelompok.
Pandangan model campuran tentang klaster: Pengklasteran berbasis model menganggap setiap klaster sebagai komponen dari campuran probabilitas, sehingga pengklasteran menjadi estimasi parameter dan jumlah klaster menjadi masalah pemilihan model.

Clinical relevance

Analisis klaster digunakan untuk menemukan struktur dalam data tanpa label di berbagai bidang, termasuk segmentasi pasar, taksonomi, pengelompokan ekspresi gen, segmentasi gambar, dan identifikasi subtipe pasien.

History

Pengklasteran numerik berkembang dari taksonomi numerik pertengahan abad kedua puluh dan disistematisasi menjadi algoritma hierarkis dan partisi. Pengklasteran berbasis model probabilistik, yang dibangun di atas model campuran terbatas dan algoritma ekspektasi-maksimisasi, kemudian menempatkan bidang ini pada pijakan kemungkinan.

Debates

Menentukan jumlah klaster: Tidak ada metode tunggal yang disepakati untuk memilih jumlah klaster; kriteria berkisar dari statistik gap dan lebar siluet hingga kriteria informasi untuk model campuran, dan semuanya dapat berbeda.

Key figures

Leonard Kaufman
Peter Rousseeuw
Brian Everitt

Seminal works

everitt2011
kaufman1990
hastie2009

Frequently asked questions

Bagaimana pengklasteran berbeda dari klasifikasi?: Pengklasteran bersifat tanpa pengawasan dan menemukan kelompok dari data tanpa label, sedangkan klasifikasi bersifat diawasi dan menetapkan observasi ke kelompok yang diketahui dan diberi label sebelumnya.
Apakah pengklasteran selalu menemukan kelompok yang bermakna?: Tidak. Algoritma pengklasteran akan mempartisi dataset apa pun, sehingga solusi harus divalidasi dan diinterpretasikan; klaster yang tampak mungkin mencerminkan metode atau pilihan jarak daripada struktur yang asli.