Neden sadece doğruluk bildirilmiyor?

Doğruluk, sınıflar dengesiz olduğunda veya hem yanlış pozitiflerin hem de yanlış negatiflerin farklı şekillerde önemli olduğu durumlarda yanıltıcı olabilir. Kesinlik, geri çağırma ve F-ölçütü, çoğu dil görevi için daha bilgilendirici bir tablo sunmaktadır.

Değerlendirme ve Notlandırma

Dil işleme sistemlerini ölçme metodolojisi: notlandırılmış korpuslar oluşturma, notlayıcılar arasındaki uyumu nicelleştirme ve sistem çıktısını adil karşılaştırmaya olanak tanıyan metriklerle puanlama.

PaperMind ile konu bulYakındaMakale ve konu bul

Tools & resources

Slaytları indir

Learn & explore

VideoYakında

Tanım

Değerlendirme ve notlandırma, güvenilir etiketli veri üretmeye ve hesaplamalı sistemlerin bu etiketleri ne kadar iyi yeniden ürettiğini veya tahmin ettiğini ölçmeye yönelik uygulamalar bütünüdür.

Kapsam

Hesaplamalı dilbilimin ampirik altyapısını kapsar — manuel notlandırma şemaları ve yönergeleri, kappa gibi notlayıcılar arası uyum istatistikleri, eğitim/geliştirme/test bölümlendirmesi ve kesinlik (precision), geri çağırma (recall), F-ölçütü (F-measure), doğruluk (accuracy) ve BLEU gibi göreve özgü puanlar dahil olmak üzere değerlendirme metrikleri. Geçerlilik ve tekrarlanabilirlik endişelerini ele alır, ancak bireysel alt sistemlerin tasarımını kapsamaz.

Temel sorular

Notlayıcıların anlaşıp anlaşmadığını nasıl ölçeriz ve şans düzeltmeli uyum neden önemlidir?
Sınıflandırma, dizi etiketleme ve üretim görevleri için hangi metrikler uygundur?
Eğitim/geliştirme/test bölmeleri aşırı uyumu ve şişirilmiş sonuçları nasıl engeller?
Bir değerlendirmeyi çalışmalar arasında tekrarlanabilir ve karşılaştırılabilir kılan nedir?

Anahtar kavramlar

notlayıcılar arası uyum
kappa istatistiği
kesinlik ve geri çağırma
F-ölçütü
eğitim/geliştirme/test bölmesi
BLEU
notlandırma yönergeleri
altın standart

Temel kuramlar

Şans düzeltmeli uyum: Notlandırmanın güvenilirliği, ham yüzde uyumu yerine, şans eseri beklenen uyumu çıkaran Cohen veya Fleiss kappa gibi katsayılarla ölçülmelidir.
Otomatik n-gram çakışma değerlendirmesi: Üretim kalitesi, BLEU'da olduğu gibi, sistem çıktısının referanslarla n-gram çakışması yoluyla karşılaştırılmasıyla ucuza yaklaşık olarak belirlenebilir; bu da bilinen sınırlamalara rağmen hızlı yinelemeyi mümkün kılar.

Tarihçe

1990'larda korpus tabanlı yöntemlerin yaygınlaşmasıyla birlikte, alan veri etiketleme ve sistem puanlama için ortak standartlara ihtiyaç duymuştur. İçerik analizinden ödünç alınan uyum istatistikleri, Artstein ve Poesio tarafından yetkin bir şekilde incelenerek dilbilimsel notlandırmaya uyarlanmıştır; BLEU (2002) gibi metrikler ise üretimin otomatik değerlendirmesini uygulanabilir hale getirmiş ve ortak görev kültürünü şekillendirmiştir.

Tartışmalar

Otomatik metrikler kaliteyi ölçer mi?: BLEU gibi metrikler, özellikle akıcı üretim için insan yargılarıyla yalnızca zayıf bir şekilde ilişkilidir; bu durum, otomatik puanların ne zaman güvenilir olduğu ile insan değerlendirmesinin ne zaman gerektiği konusunda süregelen bir tartışmayı körüklemektedir.

Öne çıkan isimler

Ron Artstein
Massimo Poesio
Kishore Papineni

İlgili konular

Temel eserler

artstein2008
papineni2002

Sıkça sorulan sorular

Neden sadece doğruluk bildirilmiyor?: Doğruluk, sınıflar dengesiz olduğunda veya hem yanlış pozitiflerin hem de yanlış negatiflerin farklı şekillerde önemli olduğu durumlarda yanıltıcı olabilir. Kesinlik, geri çağırma ve F-ölçütü, çoğu dil görevi için daha bilgilendirici bir tablo sunmaktadır.