Model Tabanlı Kümeleme
Model tabanlı kümeleme, verileri, her bir bileşenin bir kümeyi temsil ettiği sonlu bir olasılık dağılımları karışımından kaynaklanıyormuş gibi ele almakta ve modeli maksimum olabilirlik yöntemiyle tahmin etmektedir.
Tanım
Model tabanlı kümeleme, popülasyonu bileşen dağılımlarının bir karışımı olarak modelleyen, her bir gözleme her bir bileşene ait olma olasılığını atayan ve böylece kümeleri tahmin edilen karışım bileşenleri olarak türeten bir yaklaşımdır.
Kapsam
Bu konu, sonlu karışım modellerini (en yaygın olarak Gauss karışımları), karışım parametrelerini ve ardıl küme üyeliklerini tahmin etmek için beklenti-maksimizasyon algoritmasını, küme şeklini ve yönünü kontrol eden bileşen kovaryanslarının parametrelendirmelerini ve bileşen sayısını seçmek için bilgi kriterlerinin kullanımını kapsamaktadır.
Temel sorular
- Kümeleme, istatistiksel bir tahmin problemi olarak nasıl çerçevelenebilir?
- Karışım parametreleri ve yumuşak küme üyelikleri nasıl tahmin edilmektedir?
- Kovaryans parametrelendirmeleri kümelerin geometrisini nasıl kontrol etmektedir?
- Karışım bileşenlerinin sayısı nasıl seçilmektedir?
Temel kuramlar
- Sonlu karışım formülasyonu
- Her bir gözlemin, bilinmeyen karışım oranlarına sahip birkaç bileşen dağılımından birinden çekildiği varsayılmaktadır; bu nedenle kümeleme, bileşenleri tahmin etmeye ve ardıl üyelik olasılıklarını atamaya indirgenmektedir.
- Beklenti-maksimizasyon tahmini
- Küme etiketlerini eksik veri olarak ele alarak, EM algoritması beklenen üyelikleri hesaplama ve bileşen parametrelerini yeniden tahmin etme arasında dönüşümlü olarak çalışmakta ve karışımın maksimum olabilirlik uyumuna yakınsamaktadır.
Klinik önem
Model tabanlı kümeleme, olasılıksal küme atamaları ve prensipli model seçimi sağlamakta olup, yoğunluk tahmini, alt popülasyonların sınıflandırılması ve üst üste binen veya farklı şekilli kümelerin istatistiksel bir model gerektirdiği durumlarda uygulanmaktadır.
Tarihçe
Sonlu karışım modelleri uzun bir istatistiksel geçmişe sahip olmakla birlikte, kümeleme çerçevesi olarak kullanımları, beklenti-maksimizasyon algoritması ile ve Gauss karışım kümelemesini pratik ve yaygın olarak erişilebilir hale getiren kovaryans parametrelendirmeleri ve model seçimi kriterleri ile genişlemiştir.
Tartışmalar
- Bileşen sayısının seçimi
- Bayes bilgi kriteri gibi bilgi kriterleri, karışım bileşenlerinin sayısını seçmek için yaygın olarak kullanılmaktadır; ancak olabilirlik tabanlı seçim, model varsayımlarına ve üst üste binen bileşenlere karşı hassas olabilmektedir.
Öne çıkan isimler
- Geoffrey McLachlan
- Adrian Raftery
- Chris Fraley
İlgili konular
Temel eserler
- mclachlan2000
- fraley2002
- hastie2009
Sıkça sorulan sorular
- Model tabanlı kümeleme, k-ortalama (k-means) yönteminden nasıl farklılaşmaktadır?
- K-ortalama, kareli mesafeyi minimize eden kesin atamalar yapmakta ve örtük olarak küresel kümeler varsaymaktadır; oysa model tabanlı kümeleme, bir olasılık karışımını uydurmakta, yumuşak üyelikler vermekte ve farklı şekil, boyut ve yönelimdeki kümeleri modelleyebilmektedir.
- EM algoritması burada ne işe yaramaktadır?
- Her bir gözlemin her bir kümeye ait olma olasılığını yinelemeli olarak tahmin etmekte ve ardından küme dağılımlarını güncellemektedir; bu işlem, karışım olabilirlik değeri stabilize olana kadar tekrarlanmaktadır.