ScholarGate
Asistan

Değerlendirme ve Notlandırma

Dil işleme sistemlerini ölçme metodolojisi: notlandırılmış korpuslar oluşturma, notlayıcılar arasındaki uyumu nicelleştirme ve sistem çıktısını adil karşılaştırmaya olanak tanıyan metriklerle puanlama.

PaperMind ile konu bulYakındaMakale ve konu bul
Tools & resources
Slaytları indir
Learn & explore
VideoYakında

Tanım

Değerlendirme ve notlandırma, güvenilir etiketli veri üretmeye ve hesaplamalı sistemlerin bu etiketleri ne kadar iyi yeniden ürettiğini veya tahmin ettiğini ölçmeye yönelik uygulamalar bütünüdür.

Kapsam

Hesaplamalı dilbilimin ampirik altyapısını kapsar — manuel notlandırma şemaları ve yönergeleri, kappa gibi notlayıcılar arası uyum istatistikleri, eğitim/geliştirme/test bölümlendirmesi ve kesinlik (precision), geri çağırma (recall), F-ölçütü (F-measure), doğruluk (accuracy) ve BLEU gibi göreve özgü puanlar dahil olmak üzere değerlendirme metrikleri. Geçerlilik ve tekrarlanabilirlik endişelerini ele alır, ancak bireysel alt sistemlerin tasarımını kapsamaz.

Temel sorular

  • Notlayıcıların anlaşıp anlaşmadığını nasıl ölçeriz ve şans düzeltmeli uyum neden önemlidir?
  • Sınıflandırma, dizi etiketleme ve üretim görevleri için hangi metrikler uygundur?
  • Eğitim/geliştirme/test bölmeleri aşırı uyumu ve şişirilmiş sonuçları nasıl engeller?
  • Bir değerlendirmeyi çalışmalar arasında tekrarlanabilir ve karşılaştırılabilir kılan nedir?

Anahtar kavramlar

  • notlayıcılar arası uyum
  • kappa istatistiği
  • kesinlik ve geri çağırma
  • F-ölçütü
  • eğitim/geliştirme/test bölmesi
  • BLEU
  • notlandırma yönergeleri
  • altın standart

Temel kuramlar

Şans düzeltmeli uyum
Notlandırmanın güvenilirliği, ham yüzde uyumu yerine, şans eseri beklenen uyumu çıkaran Cohen veya Fleiss kappa gibi katsayılarla ölçülmelidir.
Otomatik n-gram çakışma değerlendirmesi
Üretim kalitesi, BLEU'da olduğu gibi, sistem çıktısının referanslarla n-gram çakışması yoluyla karşılaştırılmasıyla ucuza yaklaşık olarak belirlenebilir; bu da bilinen sınırlamalara rağmen hızlı yinelemeyi mümkün kılar.

Tarihçe

1990'larda korpus tabanlı yöntemlerin yaygınlaşmasıyla birlikte, alan veri etiketleme ve sistem puanlama için ortak standartlara ihtiyaç duymuştur. İçerik analizinden ödünç alınan uyum istatistikleri, Artstein ve Poesio tarafından yetkin bir şekilde incelenerek dilbilimsel notlandırmaya uyarlanmıştır; BLEU (2002) gibi metrikler ise üretimin otomatik değerlendirmesini uygulanabilir hale getirmiş ve ortak görev kültürünü şekillendirmiştir.

Tartışmalar

Otomatik metrikler kaliteyi ölçer mi?
BLEU gibi metrikler, özellikle akıcı üretim için insan yargılarıyla yalnızca zayıf bir şekilde ilişkilidir; bu durum, otomatik puanların ne zaman güvenilir olduğu ile insan değerlendirmesinin ne zaman gerektiği konusunda süregelen bir tartışmayı körüklemektedir.

Öne çıkan isimler

  • Ron Artstein
  • Massimo Poesio
  • Kishore Papineni

İlgili konular

Temel eserler

  • artstein2008
  • papineni2002

Sıkça sorulan sorular

Neden sadece doğruluk bildirilmiyor?
Doğruluk, sınıflar dengesiz olduğunda veya hem yanlış pozitiflerin hem de yanlış negatiflerin farklı şekillerde önemli olduğu durumlarda yanıltıcı olabilir. Kesinlik, geri çağırma ve F-ölçütü, çoğu dil görevi için daha bilgilendirici bir tablo sunmaktadır.

Bu kavram için yöntemler

İlgili kavramlar