Process / pipeline

Otomatik Metin Değerlendirmesi — BLEU, ROUGE, BERTScore

Automatic Text Evaluation (BLEU, ROUGE, BERTScore) · Ayrıca şöyle bilinir: Otomatik Metin Değerlendirme (BLEU, ROUGE, BERTScore), NLG evaluation, MT evaluation metrics

Otomatik metin değerlendirmesi, makine tarafından üretilen metinlerin (çeviriler, özetler veya doğal dil üretimi (NLG) çıktıları gibi) kalitesini, bir veya daha fazla insan tarafından yazılmış referans metinle karşılaştırarak ölçmek için kullanılan referans tabanlı metrikler ailesidir. Papineni ve arkadaşları tarafından 2002'de BLEU ile öncülük edilen alan, n-gram örtüşme metriklerini (BLEU, ROUGE) ve yüzey kelime eşleşmelerinin ötesinde anlamı yakalayan anlamsal olarak duyarlı metrikleri (BERTScore, MoverScore) içerecek şekilde büyümüştür.

Araçlar & kaynaklar

Slaytları indir

Öğren & keşfet

Tam yöntemi oku

Yalnızca üyeler

Bu bölümü okumak için ücretsiz hesapla giriş yapın.

Giriş yap

Yöntem haritası

İlişkili yöntemlerin komşuluğu — keşfetmek için bir düğüm seçin.

Otomatik Metin Değerlendirmesi

BERT Gömme Vektörleri Duygu Analizi Metin Sınıflandırması Konu Modelleme Doğal Dil Üretimi Metin Tutarlılık Skorlam…

Ne zaman kullanılır

Otomatik metin değerlendirmesi, üretilmiş metin (çeviri çıktısı, özetleyici özetler, NLG yanıtları) en az bir insan tarafından yazılmış referansla eşleştirildiğinde geçerlidir. Makine çevirisi ve metin özetleme araştırmalarında standart değerlendirme protokolüdür. BLEU, yüzey düzeyinde kelime doğruluğunun önemli olduğu durumlarda uygundur; ROUGE, özetleme gibi geri çağırma odaklı görevler için tercih edilir; BERTScore, eşanlamlılar ve parafların cezalandırılmak yerine ödüllendirilmesi gereken durumlarda tercih edilir. Anlamlı istatistikler için minimum on eşleştirilmiş hipotez-referans örneği gereklidir.

Güçlü yönler & sınırlılıklar

Güçlü yönler

Her değerlendirme döngüsü için insan açıklayıcılar olmadan NLG sistemlerinin hızlı, tekrarlanabilir ve ölçeklenebilir nicel karşılaştırmasını sağlar.
Birden fazla metrik farklı kalite boyutlarına odaklanır: n-gram kesinliği (BLEU), n-gram geri çağırması (ROUGE) ve anlamsal benzerlik (BERTScore).
Birden fazla referans kullanmak, aynı içeriğin nasıl ifade edilebileceğindeki doğal varyasyonu hesaba katarak BLEU puanlarını stabilize eder.

Sınırlılıklar

N-gram metrikleri (BLEU, ROUGE), referans kelimeyle eşleşmeyen geçerli parafları ve eşanlamlıları cezalandırır.
Mutlak metrik değerleri, farklı belirteçleme şemaları, referans kümeleri veya diller arasında karşılaştırılamaz.
Otomatik puanlar, akıcılık, yeterlilik ve tutarlılık hakkındaki insan yargılarıyla kusurlu bir şekilde ilişkilidir — bunlar vekil, ikame değil.

SSS

Hangi metriği kullanmalıyım — BLEU, ROUGE veya BERTScore?

BLEU, makine çevirisi için standarttır ve n-gram eşleşmelerinin kesinliğini vurgular. ROUGE, özetleme için standarttır ve hipotezin referans içeriğinin ne kadarını kapsadığını (geri çağırma) vurgular. BERTScore, bağlamsal gömmeler aracılığıyla anlamsal benzerliği yakalar, bu da onu paraflara karşı daha dayanıklı hale getirir. Kapsamlı bir değerlendirme için, farklı kalite boyutlarına odaklanan en az iki metrik bildirin.

Neden aynı veri kümesindeki makaleler arasında BLEU puanları değişebilir?

BLEU belirteçlemeye duyarlıdır: farklı belirteçleyiciler farklı n-gram sayıları üretir. Ayrıca kullanılan referans çevirilerinin sayısına da bağlıdır. Sonuçlarınızın tekrarlanabilir ve karşılaştırılabilir olmasını sağlamak için her zaman belirteçleyiciyi, referans sayısını ve kesin puanlama betiğini belirtin.

Bu metrikleri çalıştırmak için etiketli verilere ihtiyacım var mı?

Eşleştirilmiş verilere ihtiyacınız var — her makine tarafından üretilen metin en az bir insan tarafından yazılmış referansla eşleştirilmelidir. Referanslar altın standart olarak hizmet eder. Eğitim aşaması gerekmez; bunlar değerlendirme zamanında uygulanan denetimsiz puanlama fonksiyonlarıdır.

Yüksek BLEU veya ROUGE puanları bir sistemin iyi olduğuna dair yeterli kanıt mıdır?

Hayır. Otomatik metrikler kullanışlı vekil araçlardır ancak akıcılık, yeterlilik ve genel kalite hakkındaki insan yargılarıyla kusurlu bir şekilde ilişkilidir. Bir sistem, akıcı veya tutarlı metin üretmeden referansla eşleşen yüksek frekanslı ifadeleri tekrarlayarak iyi puan alabilir. Önemli bir dağıtım kararı için otomatik puanları her zaman insan değerlendirmesiyle tamamlayın.

Kaynaklar

Papineni, K., Roukos, S., Ward, T., & Zhu, W.-J. (2002). BLEU: A Method for Automatic Evaluation of Machine Translation. Proceedings of ACL 2002. link ↗
Zhang, T., Kishore, V., Wu, F., Weinberger, K. Q., & Artzi, Y. (2020). BERTScore: Evaluating Text Generation with BERT. Proceedings of ICLR 2020. link ↗

Bu sayfayı kaynak gösterin

ScholarGate. (2026, June 1). Automatic Text Evaluation (BLEU, ROUGE, BERTScore). ScholarGate. https://scholargate.app/tr/text-mining/automatic-text-evaluation

Hangi yöntem?

Bu yöntemi en yakın akrabalarının yanına koyup yan yana okuyun — kütüphane kitapları masaya serer; seçim sizindir.

BERT Gömme VektörleriMetin madenciliği↔ karşılaştır
Duygu AnaliziMetin madenciliği↔ karşılaştır
Metin SınıflandırmasıMetin madenciliği↔ karşılaştır
Konu ModellemeDerin öğrenme↔ karşılaştır

Yan yana karşılaştır →

Bu yönteme atıf yapanlar

Doğal Dil Üretimi Metin Tutarlılık Skorlaması

Benzer yöntemler

Metin Tutarlılık Skorlaması Doğal Dil Üretimi Metin Özetleme Makine Çevirisi Otomatik Kompozisyon Değerlendirme (OKD)Soru Yanıtlama (SY)Çok Belge Özeti Zayıf Denetimli Metin Özetleme

İlgili referans kavramlar

Makine Çevirisi Makine Çevirisi Değerlendirme ve Notlandırma Soru Cevaplama ve Diyalog Sistemleri Dil Modellemesi Klinik Dokümantasyonda Doğal Dil İşleme

Bu sayfada bir hata mı var? Bildir / düzeltme öner →