Gizli Değişken ve Karışım Modelleri
Gizli değişken ve karışım modelleri, gözlemlenen verileri gizli değişkenler aracılığıyla açıklamaktadır; bu modeller, gizli yapıyı dönüşümlü olarak çıkararak ve parametreleri güncelleyerek verilere uyarlanmaktadır.
Tanım
Bir gizli değişken modeli, her bir gözlemi, bir noktanın hangi karışım bileşeni tarafından üretildiği gibi gözlemlenmeyen değişkenlerin yardımıyla oluşturulmuş olarak temsil etmektedir; beklenti-maksimizasyon algoritması, gizli değişkenlerin beklenen değerlerini hesaplama ve ortaya çıkan beklenen olabilirlik değerini maksimize etme arasında yineleme yaparak parametreleri tahmin etmektedir.
Kapsam
Bu konu, gözlemlenmeyen değişkenlere sahip olasılıksal modelleri kapsamaktadır: Gauss karışımı gibi sonlu karışım modelleri, diziler için gizli Markov modelleri ve bunları olabilirlik (likelihood) maksimizasyonu ile uyarlayan beklenti-maksimizasyon (expectation-maximization) algoritması. Ayrıca, yumuşak kümeleme (soft clustering), yoğunluk tahmini ve EM'nin veri olabilirlik sınırlandırması olarak varyasyonel görünümü ile olan bağlantısı da ele alınmaktadır.
Temel sorular
- Gizli değişkenler gözlemlenen verileri nasıl açıklamaktadır?
- Beklenti-maksimizasyon algoritması her adımda olabilirlik değerini nasıl artırmaktadır?
- Gauss karışımları yumuşak kümeleme ve yoğunluk tahminini nasıl gerçekleştirmektedir?
- EM neden yalnızca yerel bir optimuma yakınsayabilmektedir?
Temel kuramlar
- Beklenti-maksimizasyon algoritması
- EM, gizli değişkenler üzerindeki dağılımı çıkaran bir beklenti adımı ile parametreleri güncelleyen bir maksimizasyon adımını dönüşümlü olarak uygulamaktadır; bu süreç, veri olabilirlik değerini kanıtlanabilir şekilde asla azaltmamakta ve bir durağan noktaya yakınsamaktadır.
- Gauss karışım modelleri
- Verileri Gauss bileşenlerinin ağırlıklı toplamı olarak modellemek, esnek yoğunluk tahminleri ve yumuşak küme atamaları sağlamaktadır; her bir noktaya, her bir bileşene ait olma olasılığı verilmektedir.
- EM'nin alt sınır maksimizasyonu olarak yorumlanması
- EM, log-olabilirlik üzerindeki varyasyonel bir alt sınırı maksimize etme olarak görülebilmektedir; bu bakış açısı, daha karmaşık gizli değişken modellerinde yaklaşık çıkarıma genelleştirilmektedir.
Klinik önem
Gizli değişken modelleri, yumuşak kümeleme, yoğunluk tahmini, eksik veri ataması (missing-data imputation) ve konuşma ile biyoinformatikte gizli Markov modelleri ile dizi modellemesinin temelini oluşturmaktadır; dayandıkları beklenti-maksimizasyon algoritması, istatistik ve makine öğreniminde en yaygın kullanılan optimizasyon prosedürlerinden biridir.
Tarihçe
Beklenti-maksimizasyon fikrinin özel durumları, Dempster, Laird ve Rubin'in 1977'de genel formülasyonu vermesinden önce genetik ve eksik veri problemlerinde ortaya çıkmıştır. Gauss karışımları ve gizli Markov modelleri standart gizli değişken araçları haline gelmiş ve EM'nin varyasyonel yeniden yorumlanması daha sonra onu modern yaklaşık çıkarım (approximate-inference) yöntemleriyle ilişkilendirmiştir.
Öne çıkan isimler
- Arthur Dempster
- Nan Laird
- Donald Rubin
İlgili konular
Temel eserler
- dempster1977
- bishop2006
- murphy2012
Sıkça sorulan sorular
- Gizli değişken nedir?
- Gizli değişken, bir veri noktasını hangi gizli kümenin ürettiği gibi, gözlemlenen veriyi açıklamak için bir modele dahil edilen gözlemlenmeyen bir niceliktir. Model, bu gizli değişkenleri doğrudan ölçmek yerine, bunlar üzerinde bir dağılım çıkarmaktadır.
- EM algoritması neden takılıp kalabilmektedir?
- EM her adımda olabilirlik değerini artırmaktadır ancak yalnızca yerel bir maksimuma veya durağan bir noktaya yakınsamayı garanti etmektedir. Farklı başlangıç değerleri farklı çözümlere yol açabilmektedir, bu nedenle uygulayıcılar genellikle algoritmayı farklı başlangıç değerlerinden birkaç kez çalıştırmaktadır.