Model tabanlı kümeleme, k-ortalama (k-means) yönteminden nasıl farklılaşmaktadır?

K-ortalama, kareli mesafeyi minimize eden kesin atamalar yapmakta ve örtük olarak küresel kümeler varsaymaktadır; oysa model tabanlı kümeleme, bir olasılık karışımını uydurmakta, yumuşak üyelikler vermekte ve farklı şekil, boyut ve yönelimdeki kümeleri modelleyebilmektedir.

EM algoritması burada ne işe yaramaktadır?

Her bir gözlemin her bir kümeye ait olma olasılığını yinelemeli olarak tahmin etmekte ve ardından küme dağılımlarını güncellemektedir; bu işlem, karışım olabilirlik değeri stabilize olana kadar tekrarlanmaktadır.

Model Tabanlı Kümeleme

Model tabanlı kümeleme, verileri, her bir bileşenin bir kümeyi temsil ettiği sonlu bir olasılık dağılımları karışımından kaynaklanıyormuş gibi ele almakta ve modeli maksimum olabilirlik yöntemiyle tahmin etmektedir.

PaperMind ile konu bulYakındaMakale ve konu bul

Tools & resources

Slaytları indir

Learn & explore

VideoYakında

Tanım

Model tabanlı kümeleme, popülasyonu bileşen dağılımlarının bir karışımı olarak modelleyen, her bir gözleme her bir bileşene ait olma olasılığını atayan ve böylece kümeleri tahmin edilen karışım bileşenleri olarak türeten bir yaklaşımdır.

Kapsam

Bu konu, sonlu karışım modellerini (en yaygın olarak Gauss karışımları), karışım parametrelerini ve ardıl küme üyeliklerini tahmin etmek için beklenti-maksimizasyon algoritmasını, küme şeklini ve yönünü kontrol eden bileşen kovaryanslarının parametrelendirmelerini ve bileşen sayısını seçmek için bilgi kriterlerinin kullanımını kapsamaktadır.

Temel sorular

Kümeleme, istatistiksel bir tahmin problemi olarak nasıl çerçevelenebilir?
Karışım parametreleri ve yumuşak küme üyelikleri nasıl tahmin edilmektedir?
Kovaryans parametrelendirmeleri kümelerin geometrisini nasıl kontrol etmektedir?
Karışım bileşenlerinin sayısı nasıl seçilmektedir?

Temel kuramlar

Sonlu karışım formülasyonu: Her bir gözlemin, bilinmeyen karışım oranlarına sahip birkaç bileşen dağılımından birinden çekildiği varsayılmaktadır; bu nedenle kümeleme, bileşenleri tahmin etmeye ve ardıl üyelik olasılıklarını atamaya indirgenmektedir.
Beklenti-maksimizasyon tahmini: Küme etiketlerini eksik veri olarak ele alarak, EM algoritması beklenen üyelikleri hesaplama ve bileşen parametrelerini yeniden tahmin etme arasında dönüşümlü olarak çalışmakta ve karışımın maksimum olabilirlik uyumuna yakınsamaktadır.

Klinik önem

Model tabanlı kümeleme, olasılıksal küme atamaları ve prensipli model seçimi sağlamakta olup, yoğunluk tahmini, alt popülasyonların sınıflandırılması ve üst üste binen veya farklı şekilli kümelerin istatistiksel bir model gerektirdiği durumlarda uygulanmaktadır.

Tarihçe

Sonlu karışım modelleri uzun bir istatistiksel geçmişe sahip olmakla birlikte, kümeleme çerçevesi olarak kullanımları, beklenti-maksimizasyon algoritması ile ve Gauss karışım kümelemesini pratik ve yaygın olarak erişilebilir hale getiren kovaryans parametrelendirmeleri ve model seçimi kriterleri ile genişlemiştir.

Tartışmalar

Bileşen sayısının seçimi: Bayes bilgi kriteri gibi bilgi kriterleri, karışım bileşenlerinin sayısını seçmek için yaygın olarak kullanılmaktadır; ancak olabilirlik tabanlı seçim, model varsayımlarına ve üst üste binen bileşenlere karşı hassas olabilmektedir.

Öne çıkan isimler

Geoffrey McLachlan
Adrian Raftery
Chris Fraley

İlgili konular

Temel eserler

mclachlan2000
fraley2002
hastie2009

Sıkça sorulan sorular

Model tabanlı kümeleme, k-ortalama (k-means) yönteminden nasıl farklılaşmaktadır?: K-ortalama, kareli mesafeyi minimize eden kesin atamalar yapmakta ve örtük olarak küresel kümeler varsaymaktadır; oysa model tabanlı kümeleme, bir olasılık karışımını uydurmakta, yumuşak üyelikler vermekte ve farklı şekil, boyut ve yönelimdeki kümeleri modelleyebilmektedir.
EM algoritması burada ne işe yaramaktadır?: Her bir gözlemin her bir kümeye ait olma olasılığını yinelemeli olarak tahmin etmekte ve ardından küme dağılımlarını güncellemektedir; bu işlem, karışım olabilirlik değeri stabilize olana kadar tekrarlanmaktadır.