Bagaimana pengelompokan berbasis model berbeda dari k-means?

K-means membuat penugasan keras yang meminimalkan jarak kuadrat dan secara implisit mengasumsikan klaster berbentuk bola, sedangkan pengelompokan berbasis model menyesuaikan campuran probabilitas, memberikan keanggotaan lunak, dan dapat memodelkan klaster dengan bentuk, ukuran, dan orientasi yang berbeda.

Apa yang dilakukan algoritma EM di sini?

Algoritma ini secara iteratif mengestimasi probabilitas bahwa setiap observasi termasuk dalam setiap klaster dan kemudian memperbarui distribusi klaster, mengulanginya hingga kemungkinan campuran stabil.

Pengelompokan Berbasis Model

Pengelompokan berbasis model memperlakukan data seolah-olah berasal dari campuran terbatas distribusi probabilitas, dengan setiap komponen merepresentasikan sebuah klaster, dan mengestimasi model dengan kemungkinan maksimum.

Temukan Topik dengan PaperMindSegeraFind papers & topics

Tools & resources

Unduh salindia

Learn & explore

VideoSegera

Definition

Pengelompokan berbasis model adalah pendekatan yang memodelkan populasi sebagai campuran distribusi komponen, menetapkan setiap observasi probabilitas posterior untuk menjadi bagian dari setiap komponen, dan dengan demikian menurunkan klaster sebagai komponen campuran yang diestimasi.

Scope

Topik ini mencakup model campuran terbatas, yang paling umum adalah campuran Gaussian, algoritma ekspektasi-maksimisasi untuk mengestimasi parameter campuran dan keanggotaan klaster posterior, parameterisasi kovarians komponen yang mengontrol bentuk dan orientasi klaster, serta penggunaan kriteria informasi untuk memilih jumlah komponen.

Core questions

Bagaimana pengelompokan dapat dibingkai sebagai masalah estimasi statistik?
Bagaimana parameter campuran dan keanggotaan klaster lunak diestimasi?
Bagaimana parameterisasi kovarians mengontrol geometri klaster?
Bagaimana jumlah komponen campuran dipilih?

Key theories

Formulasi campuran terbatas: Setiap observasi diasumsikan diambil dari salah satu dari beberapa distribusi komponen dengan proporsi pencampuran yang tidak diketahui, sehingga pengelompokan direduksi menjadi estimasi komponen dan penetapan probabilitas keanggotaan posterior.
Estimasi ekspektasi-maksimisasi: Memperlakukan label klaster sebagai data yang hilang, algoritma EM bergantian antara menghitung keanggotaan yang diharapkan dan mengestimasi ulang parameter komponen, konvergen ke kecocokan kemungkinan maksimum dari campuran.

Clinical relevance

Pengelompokan berbasis model menyediakan penugasan klaster probabilistik dan pemilihan model yang berprinsip, serta diterapkan dalam estimasi densitas, klasifikasi subpopulasi, dan pengaturan di mana klaster yang tumpang tindih atau berbentuk berbeda memerlukan model statistik.

History

Model campuran terbatas memiliki sejarah statistik yang panjang, tetapi penggunaannya sebagai kerangka kerja pengelompokan berkembang dengan algoritma ekspektasi-maksimisasi serta dengan parameterisasi kovarians dan kriteria pemilihan model yang membuat pengelompokan campuran Gaussian praktis dan tersedia secara luas.

Debates

Memilih jumlah komponen: Kriteria informasi seperti kriteria informasi Bayesian umumnya digunakan untuk memilih jumlah komponen campuran, tetapi pemilihan berbasis kemungkinan dapat sensitif terhadap asumsi model dan komponen yang tumpang tindih.

Key figures

Geoffrey McLachlan
Adrian Raftery
Chris Fraley

Seminal works

mclachlan2000
fraley2002
hastie2009

Frequently asked questions

Bagaimana pengelompokan berbasis model berbeda dari k-means?: K-means membuat penugasan keras yang meminimalkan jarak kuadrat dan secara implisit mengasumsikan klaster berbentuk bola, sedangkan pengelompokan berbasis model menyesuaikan campuran probabilitas, memberikan keanggotaan lunak, dan dapat memodelkan klaster dengan bentuk, ukuran, dan orientasi yang berbeda.
Apa yang dilakukan algoritma EM di sini?: Algoritma ini secara iteratif mengestimasi probabilitas bahwa setiap observasi termasuk dalam setiap klaster dan kemudian memperbarui distribusi klaster, mengulanginya hingga kemungkinan campuran stabil.