Değerlendirme ve Notlandırma
Dil işleme sistemlerini ölçme metodolojisi: notlandırılmış korpuslar oluşturma, notlayıcılar arasındaki uyumu nicelleştirme ve sistem çıktısını adil karşılaştırmaya olanak tanıyan metriklerle puanlama.
Tanım
Değerlendirme ve notlandırma, güvenilir etiketli veri üretmeye ve hesaplamalı sistemlerin bu etiketleri ne kadar iyi yeniden ürettiğini veya tahmin ettiğini ölçmeye yönelik uygulamalar bütünüdür.
Kapsam
Hesaplamalı dilbilimin ampirik altyapısını kapsar — manuel notlandırma şemaları ve yönergeleri, kappa gibi notlayıcılar arası uyum istatistikleri, eğitim/geliştirme/test bölümlendirmesi ve kesinlik (precision), geri çağırma (recall), F-ölçütü (F-measure), doğruluk (accuracy) ve BLEU gibi göreve özgü puanlar dahil olmak üzere değerlendirme metrikleri. Geçerlilik ve tekrarlanabilirlik endişelerini ele alır, ancak bireysel alt sistemlerin tasarımını kapsamaz.
Temel sorular
- Notlayıcıların anlaşıp anlaşmadığını nasıl ölçeriz ve şans düzeltmeli uyum neden önemlidir?
- Sınıflandırma, dizi etiketleme ve üretim görevleri için hangi metrikler uygundur?
- Eğitim/geliştirme/test bölmeleri aşırı uyumu ve şişirilmiş sonuçları nasıl engeller?
- Bir değerlendirmeyi çalışmalar arasında tekrarlanabilir ve karşılaştırılabilir kılan nedir?
Anahtar kavramlar
- notlayıcılar arası uyum
- kappa istatistiği
- kesinlik ve geri çağırma
- F-ölçütü
- eğitim/geliştirme/test bölmesi
- BLEU
- notlandırma yönergeleri
- altın standart
Temel kuramlar
- Şans düzeltmeli uyum
- Notlandırmanın güvenilirliği, ham yüzde uyumu yerine, şans eseri beklenen uyumu çıkaran Cohen veya Fleiss kappa gibi katsayılarla ölçülmelidir.
- Otomatik n-gram çakışma değerlendirmesi
- Üretim kalitesi, BLEU'da olduğu gibi, sistem çıktısının referanslarla n-gram çakışması yoluyla karşılaştırılmasıyla ucuza yaklaşık olarak belirlenebilir; bu da bilinen sınırlamalara rağmen hızlı yinelemeyi mümkün kılar.
Tarihçe
1990'larda korpus tabanlı yöntemlerin yaygınlaşmasıyla birlikte, alan veri etiketleme ve sistem puanlama için ortak standartlara ihtiyaç duymuştur. İçerik analizinden ödünç alınan uyum istatistikleri, Artstein ve Poesio tarafından yetkin bir şekilde incelenerek dilbilimsel notlandırmaya uyarlanmıştır; BLEU (2002) gibi metrikler ise üretimin otomatik değerlendirmesini uygulanabilir hale getirmiş ve ortak görev kültürünü şekillendirmiştir.
Tartışmalar
- Otomatik metrikler kaliteyi ölçer mi?
- BLEU gibi metrikler, özellikle akıcı üretim için insan yargılarıyla yalnızca zayıf bir şekilde ilişkilidir; bu durum, otomatik puanların ne zaman güvenilir olduğu ile insan değerlendirmesinin ne zaman gerektiği konusunda süregelen bir tartışmayı körüklemektedir.
Öne çıkan isimler
- Ron Artstein
- Massimo Poesio
- Kishore Papineni
İlgili konular
Temel eserler
- artstein2008
- papineni2002
Sıkça sorulan sorular
- Neden sadece doğruluk bildirilmiyor?
- Doğruluk, sınıflar dengesiz olduğunda veya hem yanlış pozitiflerin hem de yanlış negatiflerin farklı şekillerde önemli olduğu durumlarda yanıltıcı olabilir. Kesinlik, geri çağırma ve F-ölçütü, çoğu dil görevi için daha bilgilendirici bir tablo sunmaktadır.