Performans Metrikleri
Performans metrikleri, bir modelin ne kadar iyi tahmin yaptığını nicel olarak belirleyen ölçütlerdir; farklı ölçümler doğruluğun farklı yönlerini ve hatanın farklı maliyetlerini yakalamaktadır.
Tanım
Performans metriği, bir modelin tahminlerinin değerlendirme verilerindeki gerçek hedeflerle ne kadar yakından eşleştiğinin sayısal bir özetidir; uygun metrik, görev türüne, sınıfların dengesine ve farklı hata türlerinin göreceli maliyetlerine bağlı olarak değişmektedir.
Kapsam
Bu konu, model performansını değerlendirmek için kullanılan ölçütleri kapsamaktadır: sınıflandırma için doğruluk (accuracy), kesinlik (precision), duyarlılık (recall), F-ölçütü ve alıcı işletim karakteristiği (receiver operating characteristic) eğrisi ile alanı; regresyon için ortalama kare ve mutlak hata ile belirleme katsayısı (coefficient of determination); ve log kaybı (log loss) gibi olasılıksal puanlama kuralları. Sınıf dengesizliği ve asimetrik hata maliyetleri durumunda metrik seçimini ele almaktadır.
Temel sorular
- Belirli bir görevin gerçek amacını hangi metrik yansıtmaktadır?
- Kesinlik (precision) ve duyarlılık (recall) arasındaki denge nasıl kurulur ve her biri ne zaman önem kazanır?
- Doğruluk (accuracy) dengesiz verilerde neden yanıltıcı olabilmektedir?
- Olasılıksal tahminler nasıl puanlanmaktadır?
Temel kuramlar
- Karışıklık Matrisi Metrikleri (Confusion-matrix metrics)
- Gerçek ve yanlış pozitifler ile negatiflerin sayılarından doğruluk (accuracy), kesinlik (precision), duyarlılık (recall) ve F-ölçütü elde edilmektedir; bunlar, tek bir doğruluk değerinin gizleyebileceği ödünleşimleri ortaya koymaktadır.
- Eşik Bağımsız Değerlendirme (Threshold-independent evaluation)
- Alıcı işletim karakteristiği (receiver operating characteristic) eğrisi ve alanı, bir sınıflandırıcının tüm karar eşiklerindeki performansını özetlemektedir; bu, çalışma noktasının önceden belirlenmediği durumlarda faydalıdır.
- Uygun Puanlama Kuralları (Proper scoring rules)
- Log kaybı (log loss) gibi puanlama kuralları, iyi kalibre edilmiş olasılık tahminlerini ödüllendirmekte ve gerçek olasılıkların raporlanmasıyla minimize edilerek dürüst olasılıksal tahmini teşvik etmektedir.
Klinik önem
Doğru performans metriğini seçmek kritik öneme sahiptir, çünkü yanlış bir ölçütle optimize edilen veya değerlendirilen bir model, gerçekte önemli olan konularda kötü performans gösterebilmektedir; dolandırıcılık veya hastalık tespiti gibi dengesiz veya maliyet duyarlı ortamlarda, saf doğruluk (naive accuracy) özellikle yanıltıcı olabilmekte ve metriklerin hataların gerçek sonuçlarını yansıtması gerekmektedir.
Tarihçe
Birçok metrik, makine öğrenimi dışından gelmektedir; kesinlik (precision) ve duyarlılık (recall) bilgi erişiminden, alıcı işletim karakteristiği (receiver operating characteristic) ise sinyal algılama kuramından kaynaklanmaktadır. Makine öğrenimi dengesiz ve yüksek riskli problemlere uygulandıkça, dikkatli metrik seçimi ve birden fazla tamamlayıcı metriğin raporlanması standart bir metodoloji haline gelmiştir.
Öne çıkan isimler
- Trevor Hastie
- Tom Fawcett
- Christopher Bishop
İlgili konular
Temel eserler
- hastie2009
- bishop2006
- murphy2012
Sıkça sorulan sorular
- Doğruluk (accuracy) neden yanıltıcı olabilmektedir?
- Bir sınıf diğerinden çok daha yaygınsa, her zaman çoğunluk sınıfını tahmin eden bir model, nadir sınıf için işe yaramazken yüksek doğruluğa sahip olabilmektedir. Kesinlik (precision), duyarlılık (recall) ve alıcı işletim karakteristiği (receiver operating characteristic) eğrisinin altındaki alan gibi metrikler bu tür bir başarısızlığı ortaya koymaktadır.
- Kesinlik (precision) ve duyarlılık (recall) arasındaki fark nedir?
- Kesinlik (precision), tahmin edilen pozitiflerin gerçekte pozitif olan kısmıdır ve pozitif tahminlerin ne kadar güvenilir olduğunu ölçmektedir. Duyarlılık (recall) ise modelin bulduğu gerçek pozitiflerin oranıdır ve kaç gerçek vakayı yakaladığını ölçmektedir. Birini iyileştirmek genellikle diğerinin pahasına olmaktadır.