Topluluk Yöntemleri
Topluluk yöntemleri, birçok bireysel modeli tek bir tahmin edicide birleştirerek, varyansı veya yanlılığı azaltır ve herhangi bir tek bir modelin doğruluğunu aşan bir başarı elde eder.
Tanım
Bir topluluk yöntemi, bir temel model koleksiyonunu eğitir ve tahminlerini, örneğin ortalama alma veya ağırlıklı oylama yoluyla birleştirir; bagging tarzı topluluklar, rastgele seçilmiş modeller üzerinde ortalama alarak varyansı azaltırken, artırma (boosting) tarzı topluluklar, daha önce yanlış sınıflandırılmış örnekleri sıralı olarak vurgulayarak yanlılığı azaltır.
Kapsam
Bu konu, birden fazla öğreniciyi bir araya getiren teknikleri kapsamaktadır: bagging ve bootstrap toplama, hem verileri hem de özellikleri rastgele seçen rastgele ormanlar (random forests) ve önceki hataları düzeltmek için modelleri sıralı olarak uyduran AdaBoost ve gradyan artırma (gradient boosting) gibi artırma (boosting) yöntemleri. Toplulukların neden hatayı azalttığı, ortalamanın (averaging) artırmaya (boosting) karşı yanlılık-varyans etkileri ve model çeşitliliğinin rolü ele alınmaktadır.
Temel sorular
- Neden birçok modeli birleştirmek genellikle en iyi tek modeli geride bırakır?
- Bagging ve artırma (boosting) hangi hatayı azaltma konusunda nasıl farklılık gösterir?
- Temel öğreniciler arasındaki çeşitlilik hangi rolü oynar?
- Gradyan artırma (gradient boosting) eklemeli modelleri aşama aşama nasıl uydurur?
Temel kuramlar
- Bagging ve varyans azaltma
- Bootstrap yeniden örnekleri üzerinde eğitilmiş modellerin tahminlerinin ortalaması, yanlılığı çok artırmadan varyansı azaltır; bu durum, derin karar ağaçları gibi kararsız, yüksek varyanslı temel öğreniciler için en etkilidir.
- Rastgele ormanlar (Random forests)
- Rastgele ormanlar (random forests), verileri yeniden örnekleyerek ve her bölmede dikkate alınan özellikleri rastgele kısıtlayarak birçok ilişkisiz ağaç oluşturur; bu da hata ve özellik öneminin yerleşik tahminleriyle sağlam, doğru bir topluluk sağlar.
- Eklemeli modelleme olarak artırma (Boosting)
- Artırma (boosting), temel öğrenicileri sıralı olarak uydurur, her biri mevcut topluluğun kalan hatalarını düzeltir; bu, bir kayıp fonksiyonunun aşamalı minimizasyonu olarak anlaşılabilir ve yanlılığı azaltma eğilimindedir.
Klinik önem
Ağaç tabanlı topluluklar, özellikle rastgele ormanlar (random forests) ve gradyan artırılmış ağaçlar (gradient-boosted trees), tablo verileri için en güvenilir şekilde doğru yöntemler arasında yer almakta ve rutin olarak tahmin yarışmalarını kazanarak endüstriyel sistemlere güç vermektedir; yerleşik özellik önem ölçümleri (feature importance) de hangi girdilerin bir tahmini yönlendirdiğini anlamak için onları faydalı kılmaktadır.
Tarihçe
Bagging, 1996 yılında Breiman tarafından tanıtılmış, kısa bir süre sonra Freund ve Schapire tarafından geliştirilen AdaBoost ise zayıf öğrenicilerin güçlü öğrenicilere dönüştürülebileceğini göstermiştir. Breiman'ın 2001'deki rastgele ormanları (random forests) ve Friedman'ın gradyan artırma makineleri (gradient boosting machines) bu fikirleri birleştirmiş ve genişletmiş, toplulukları yapılandırılmış tahmin görevleri için standart bir yaklaşım haline getirmiştir.
Öne çıkan isimler
- Leo Breiman
- Robert Schapire
- Yoav Freund
- Jerome Friedman
İlgili konular
Temel eserler
- breiman2001
- hastie2009
- freund1997
Sıkça sorulan sorular
- Bagging ve artırma (boosting) arasındaki fark nedir?
- Bagging, temel modelleri yeniden örneklenmiş veriler üzerinde bağımsız olarak eğitir ve varyansı azaltmak için bunları ortalar. Artırma (boosting), modelleri sıralı olarak eğitir; her yeni model, mevcut topluluğun hatalarına odaklanarak yanlılığı azaltır. Bagging doğal olarak paralelleştirilebilir; artırma (boosting) ise doğası gereği sıralıdır.
- Rastgele ormanlar (random forests) neden nadiren kötü şekilde aşırı uyum sağlar?
- Her ağaç, özelliklerin rastgele bir alt kümesi kullanılarak farklı bir bootstrap örneği üzerinde büyütülür, bu nedenle ağaçlar ilişkisizdir. Birçok ilişkisiz ağacın ortalaması, bireysel varyanslarının çoğunu iptal eder ve daha fazla ağaç eklemek aşırı uyumu artırmaz.