K-ortalamalar neden farklı çalıştırmalarda farklı sonuçlar verir?

Hedefi dışbükey (non-convex) değildir, bu nedenle algoritma rastgele başlangıç merkezlerine bağlı olan yerel bir optimuma yakınsar; bu nedenle, algoritmayı birkaç kez çalıştırıp en iyi sonucu saklamak standart bir uygulamadır.

Küme sayısı k'yi nasıl seçerim?

Yaygın sezgisel yöntemler arasında küme içi kareler toplamındaki dirsek noktası, boşluk istatistiği (gap statistic) ve ortalama siluet genişliği bulunmaktadır; ancak hiçbiri kesin değildir ve alan bilgisi genellikle seçime rehberlik etmektedir.

K-Ortalamalar Kümeleme

K-ortalamalar kümeleme, gözlemleri, küme merkezlerine olan küme içi kareler toplamı mesafesini minimize ederek sabit sayıda kümeye ayırmaktadır.

PaperMind ile konu bulYakındaMakale ve konu bul

Tools & resources

Slaytları indir

Learn & explore

VideoYakında

Tanım

K-ortalamalar kümeleme, belirlenmiş sayıda küme merkezi yerleştiren ve her gözlemi en yakın merkezine atayarak gözlemlerden atandıkları merkezlere olan toplam kare Öklid mesafesini minimize etmeyi amaçlayan bir bölümlendirme yöntemidir.

Kapsam

Bu konu, küme içi kareler toplamı hedefi, noktaları en yakın merkeze atama ve merkezleri yeniden hesaplama arasında geçiş yapan tekrarlamalı atama ve güncelleme algoritması, başlatmaya bağımlılık ve ortaya çıkan yerel optimumlar, küme sayısının seçimi ile yöntemin varsayımları ve sınırlılıklarını kapsamaktadır.

Temel sorular

Gözlemler, küme içi dağılımı minimize etmek için nasıl bölümlendirilebilir?
Algoritma neden yalnızca yerel bir optimuma yakınsar ve bu durum nasıl hafifletilir?
Küme sayısı nasıl seçilir?
Yöntem, örtük olarak hangi küme şekillerini ve ölçeklerini varsaymaktadır?

Temel kuramlar

Küme içi kareler toplamı minimizasyonu: K-ortalamalar, noktalardan küme merkezlerine olan toplam kare mesafeyi minimize eden bölümlendirmeyi ve küme merkezleri kümesini arar; bu hedef için, alternatif atama-güncelleme iterasyonu kriteri monotonik olarak azaltmaktadır.
Yerel optimum duyarlılığı: Hedef dışbükey (non-convex) olmadığı için, algoritma başlangıç merkezlerine bağlı olan yerel bir minimuma yakınsar; bu durum, birden fazla yeniden başlatmayı ve dikkatli tohumlamayı (seeding) teşvik etmektedir.

Klinik önem

K-ortalamalar, büyük veri kümelerini bölümlendirmek için hızlı, ölçeklenebilir bir varsayılan yöntem olup vektör niceleme, görüntü renk azaltma, müşteri segmentasyonu gibi alanlarda ve daha karmaşık modeller için bir başlangıç olarak kullanılmaktadır.

Tarihçe

Merkez tabanlı bölümlendirme fikri, Lloyd'un daha önceki niceleme algoritmasına dayanarak 1967'de k-ortalamalar adını veren MacQueen tarafından formüle edilmiştir. Basitliği ve hızı nedeniyle en yaygın kullanılan kümeleme yöntemlerinden biri haline gelmiştir.

Tartışmalar

K-ortalamaların örtük varsayımları: Kare Öklid mesafesini minimize etmek, kabaca küresel, eşit büyüklükteki kümeleri desteklemektedir; bu nedenle k-ortalamalar, kümeler uzunlamasına, eşit olmayan büyüklükte veya dışbükey olmayan (non-convex) olduğunda yanıltıcı olabilir, bu da model tabanlı veya yoğunluk tabanlı alternatifleri teşvik etmektedir.

Öne çıkan isimler

James MacQueen
Stuart Lloyd

İlgili konular

Temel eserler

hastie2009
everitt2011
macqueen1967

Sıkça sorulan sorular

K-ortalamalar neden farklı çalıştırmalarda farklı sonuçlar verir?: Hedefi dışbükey (non-convex) değildir, bu nedenle algoritma rastgele başlangıç merkezlerine bağlı olan yerel bir optimuma yakınsar; bu nedenle, algoritmayı birkaç kez çalıştırıp en iyi sonucu saklamak standart bir uygulamadır.
Küme sayısı k'yi nasıl seçerim?: Yaygın sezgisel yöntemler arasında küme içi kareler toplamındaki dirsek noktası, boşluk istatistiği (gap statistic) ve ortalama siluet genişliği bulunmaktadır; ancak hiçbiri kesin değildir ve alan bilgisi genellikle seçime rehberlik etmektedir.