Kümeleme Algoritmaları
Kümeleme algoritmaları, verileri benzer öğelerden oluşan gruplara ayırarak, herhangi bir etiket kullanmadan doğal yapıyı ortaya çıkarmaktadır.
Tanım
Kümeleme, bir veri kümesinin, bir grup içindeki noktaların diğer gruplardaki noktalardan birbirine daha benzer olduğu gruplara denetimsiz olarak ayrılmasıdır; burada benzerlik, uygulama için seçilen bir mesafe veya yoğunluk kriteri ile tanımlanmaktadır.
Kapsam
Bu konu, kümelemenin ana ailelerini kapsamaktadır: k-ortalamalar gibi merkez tabanlı yöntemler, iç içe geçmiş gruplardan oluşan bir ağaç oluşturan hiyerarşik kümeleme, rastgele şekilli kümeleri bulan yoğunluk tabanlı yöntemler ve mesafe ölçütleri ile küme sayısının seçimi. İyi bir kümelemeyi neyin oluşturduğu ve sorunun neden doğası gereği belirsiz olduğu ele alınmaktadır.
Temel sorular
- Bir nokta kümesini küme yapan nedir?
- k-ortalamalar, küme içi varyansı yinelemeli olarak nasıl minimize etmektedir?
- Küme sayısı nasıl seçilmektedir?
- Hiyerarşik veya yoğunluk tabanlı yöntemler, merkez tabanlı yöntemlerden ne zaman daha iyi performans göstermektedir?
Temel kuramlar
- k-ortalamalar ve Lloyd algoritması
- k-ortalamalar, noktaların en yakın merkezlere atanması ve merkezlerin yeniden hesaplanması işlemlerini dönüşümlü olarak uygulayarak küme merkezlerine olan toplam karesel mesafeyi minimize etmektedir; bu prosedür yerel bir optimuma yakınsamaktadır.
- Hiyerarşik kümeleme
- Yığışımlı kümeleme, bir dendrogram oluşturmak için en yakın grupları tekrar tekrar birleştirmekte, her ayrıntı düzeyinde kümelemeler sağlamakta ve küme sayısını önceden belirleme ihtiyacını ortadan kaldırmaktadır.
- Karışım modeli kümeleme
- Kümeleri olasılıksal bir karışımın bileşenleri olarak ele almak, yumuşak atamalar ile farklı şekil ve boyutlardaki kümelere olanak tanımakta, kümelemeyi gizli değişken yoğunluk tahminiyle ilişkilendirmektedir.
Klinik önem
Kümeleme, pazar segmentasyonu, belge ve görüntü organizasyonu, gen ekspresyonu gruplaması ve anomali tespiti gibi alanların temelini oluşturmakta olup, keşifsel veri analizinin birincil aracıdır; kümelemeler seçilen mesafeye ve grup sayısına bağlı olduğundan, sonuçlar benzersiz bir mutlak gerçek olarak ele alınmak yerine dikkatle yorumlanmalıdır.
Tarihçe
k-ortalamalar prosedürü, Lloyd'un 1982'de yayımlanan 1957 tarihli niceleme çalışmasına ve MacQueen'in bağımsız formülasyonuna dayanmaktadır. Hiyerarşik kümeleme sayısal taksonomide ortaya çıkmış ve DBSCAN gibi yoğunluk tabanlı yöntemler, kümelemeyi rastgele şekilli gruplara genişleterek, denetimsiz gruplamanın standart araç setini oluşturmuştur.
Öne çıkan isimler
- Stuart Lloyd
- James MacQueen
- Trevor Hastie
İlgili konular
Temel eserler
- lloyd1982
- hastie2009
- bishop2006
Sıkça sorulan sorular
- k-ortalamalar neden küme sayısının seçilmesini gerektirmektedir?
- k-ortalamalar, sabit sayıda merkezin yerleşimini optimize etmektedir, bu nedenle bu sayı bir girdi olarak verilmektedir. Daha fazla küme eklemek her zaman küme içi mesafeyi azalttığından, bu sayının seçimi dirsek yöntemi, siluet skorları veya alan bilgisi gibi sezgisel yöntemlere dayanmaktadır.
- Farklı kümeleme yöntemleri farklı sonuçlar verebilir mi?
- Evet. Tek bir küme tanımı bulunmadığından, merkez tabanlı, hiyerarşik ve yoğunluk tabanlı yöntemler aynı verinin farklı bölümlendirmelerini üretebilmekte olup, her biri kendi kriterine göre geçerlidir. Doğru seçim, beklenen küme şekillerine ve amaca bağlıdır.