Neden performans eğitim verileri üzerinde ölçülmemelidir?

Bir model, gürültüsü de dahil olmak üzere eğitim verilerine yakından uyum sağlayabilir, bu nedenle eğitim hatası yeni verilerdeki hatayı hafife alır. Dürüst bir değerlendirme, modelin hiç görmediği, ayrılmış bir test kümesi veya çapraz doğrulama (cross-validation) yoluyla elde edilen verileri gerektirir.

Doğrulama kümesi ile test kümesi arasındaki fark nedir?

Doğrulama kümesi, geliştirme sırasında hiperparametreleri ayarlamak ve modelleri seçmek için kullanılırken, test kümesi tek bir nihai değerlendirme için ayrılmıştır. Bunları ayrı tutmak, ayarlama sırasında yapılan seçimlerin raporlanan performansı şişirmesini önler.

Model Değerlendirme ve Seçimi

Model değerlendirme ve seçimi, bir modelin ne kadar iyi genelleme yapacağını tahmin etmek ve rakip modeller ile ayarlar arasından seçim yapmak için kullanılan yöntemlerdir.

PaperMind ile konu bulYakındaMakale ve konu bul

Tools & resources

Slaytları indir

Learn & explore

VideoYakında

Tanım

Model değerlendirme, bir modelin görülmemiş veriler üzerindeki beklenen performansının tahmin edilmesidir; model seçimi ise modeller, özellikler veya hiperparametre ayarları arasından seçim yapmak için bu tür tahminlerin kullanılmasıdır; her ikisi de genellemenin dürüst tahminlerini elde etmek için uyumlandırma (fitting) için kullanılan verileri değerlendirme için kullanılan verilerden ayırmaya dayanmaktadır.

Kapsam

Bu alan, makine öğreniminin ampirik metodolojisini kapsamaktadır: verileri ayırarak ve çapraz doğrulama (cross-validation) yoluyla genelleme hatasını tahmin etme, sınıflandırma ve regresyon için performans metrikleri, iyi hiperparametrelerin aranması ve düzenlileştirme (regularization) yoluyla model karmaşıklığının kontrolü. Eğitim verileri üzerinde değerlendirme yapmaktan kaynaklanan iyimser yanlılığı nasıl önleyeceğini ve modelleri adil bir şekilde nasıl karşılaştıracağını ele almaktadır.

Alt konular

Temel sorular

Genelleme hatası aşırı iyimserlik olmadan nasıl tahmin edilebilir?
Belirli bir görev için hangi metrikler performansı doğru bir şekilde yakalar?
Değerlendirmeyi kirletmeden hiperparametreler nasıl seçilir?
Model karmaşıklığı mevcut verilere nasıl ayarlanır?

Temel kuramlar

Dürüst hata tahmini: Uyumlandırma (fitting) için kullanılmayan veriler üzerinde, ayrılmış test kümeleri veya çapraz doğrulama (cross-validation) yoluyla performansın tahmin edilmesi esastır, çünkü eğitim verileri üzerinde ölçülen hata iyimser bir şekilde yanlıdır.
Model seçimi ve karmaşıklık kontrolü: Modeller arasından seçim yapmak, uyumu karmaşıklıkla dengelemeyi gerektirir; en iyi genelleme yapması beklenen modeli seçmek için doğrulama tahminleri veya bilgi kriterleri kullanılmaktadır.
Seçim ve değerlendirmenin ayrılması: Hiperparametreler, nihai test kümesinden ayrı tutulan doğrulama verileri üzerinde ayarlanmalıdır, çünkü seçim için test verilerinin yeniden kullanılması aşırı iyimser performans tahminleri üretmektedir.

Klinik önem

Sağlam bir değerlendirme metodolojisi, makine öğrenimi sonuçlarını güvenilir kılan şeydir; eğitim verileri üzerinde test etme, test kümesi üzerinde ayarlama yapma veya yanıltıcı metrikler seçme gibi hatalar, geliştirme aşamasında mükemmel görünen ancak dağıtımda başarısız olan modellerin yaygın nedenleridir ve bu alanı sorumlu uygulama için temel hale getirmektedir.

Tarihçe

Çapraz doğrulama (cross-validation), 1970'lerde Stone ve diğerleri tarafından tahmin hatasını tahmin etmenin bir yolu olarak resmileştirilmiştir ve Akaike ve Bayes kriteri gibi bilgi kriterleri, olabilirlik (likelihood) temelli model seçimi kuralları sağlamıştır. Makine öğrenimi olgunlaştıkça, titiz eğitim, doğrulama ve test protokolleri ile geniş bir performans metrikleri yelpazesi standart uygulama haline gelmiştir.

Tartışmalar

Doğru metriği seçmek: Tek bir doğruluk rakamı, dengesiz veya maliyet-duyarlı problemlerde yanıltıcı olabilmektedir; bu da hangi metriklerin gerçek dünya hedeflerini en iyi yansıttığı ve performansın dürüstçe nasıl raporlanacağı konusunda tartışmalara yol açmaktadır.

Öne çıkan isimler

Trevor Hastie
Robert Tibshirani
Mervyn Stone

İlgili konular

Temel eserler

hastie2009
bishop2006
murphy2012

Sıkça sorulan sorular

Neden performans eğitim verileri üzerinde ölçülmemelidir?: Bir model, gürültüsü de dahil olmak üzere eğitim verilerine yakından uyum sağlayabilir, bu nedenle eğitim hatası yeni verilerdeki hatayı hafife alır. Dürüst bir değerlendirme, modelin hiç görmediği, ayrılmış bir test kümesi veya çapraz doğrulama (cross-validation) yoluyla elde edilen verileri gerektirir.
Doğrulama kümesi ile test kümesi arasındaki fark nedir?: Doğrulama kümesi, geliştirme sırasında hiperparametreleri ayarlamak ve modelleri seçmek için kullanılırken, test kümesi tek bir nihai değerlendirme için ayrılmıştır. Bunları ayrı tutmak, ayarlama sırasında yapılan seçimlerin raporlanan performansı şişirmesini önler.