ScholarGate
Assistent

Evaluation und Annotation

Die Methodik zur Messung von Sprachverarbeitungssystemen: Erstellung annotierter Korpora, Quantifizierung der Übereinstimmung zwischen Annotatoren und Bewertung der Systemausgabe mit Metriken, die einen fairen Vergleich ermöglichen.

Thema finden mit PaperMindDemnächstFind papers & topics
Tools & resources
Folien herunterladen
Learn & explore
VideoDemnächst

Definition

Evaluation und Annotation ist die Gesamtheit der Praktiken zur Erstellung zuverlässiger gelabelter Daten und zur Messung, wie gut computergestützte Systeme diese Labels reproduzieren oder vorhersagen.

Scope

Umfasst die empirische Infrastruktur der Computerlinguistik – manuelle Annotationsschemata und -richtlinien, Statistiken zur Inter-Annotator-Übereinstimmung wie Kappa, Train/Development/Test-Partitionierung und Evaluationsmetriken einschließlich Präzision, Recall, F-Maß, Genauigkeit und aufgabenspezifische Scores wie BLEU. Es werden Validitäts- und Reproduzierbarkeitsbedenken behandelt, jedoch nicht das Design einzelner nachgelagerter Systeme.

Core questions

  • Wie messen wir, ob Annotatoren übereinstimmen, und warum ist die zufallsbereinigte Übereinstimmung wichtig?
  • Welche Metriken sind für Klassifikations-, Sequenzlabeling- und Generierungsaufgaben geeignet?
  • Wie schützen Train/Development/Test-Splits vor Overfitting und überhöhten Ergebnissen?
  • Was macht eine Evaluation reproduzierbar und vergleichbar über Studien hinweg?

Key concepts

  • Inter-Annotator-Übereinstimmung
  • Kappa-Statistik
  • Präzision und Recall
  • F-Maß
  • Train/Development/Test-Split
  • BLEU
  • Annotationsrichtlinien
  • Goldstandard

Key theories

Zufallsbereinigte Übereinstimmung
Die Zuverlässigkeit der Annotation sollte mit Koeffizienten wie Cohens oder Fleiss' Kappa gemessen werden, die die zufällig erwartete Übereinstimmung abziehen, nicht die rohe prozentuale Übereinstimmung.
Automatische N-Gramm-Overlap-Evaluierung
Die Generierungsqualität kann kostengünstig durch den Vergleich der Systemausgabe mit Referenzen mittels N-Gramm-Overlap, wie bei BLEU, angenähert werden, was trotz bekannter Einschränkungen eine schnelle Iteration ermöglicht.

History

Als sich korpusbasierte Methoden in den 1990er Jahren verbreiteten, benötigte das Feld gemeinsame Standards für die Datenkennzeichnung und Systembewertung. Aus der Inhaltsanalyse entlehnte Übereinstimmungsstatistiken wurden an die linguistische Annotation angepasst, wie von Artstein und Poesio maßgeblich beschrieben, während Metriken wie BLEU (2002) die automatische Bewertung der Generierung praktikabel machten und die Kultur der Shared Tasks prägten.

Debates

Messen automatische Metriken die Qualität?
Metriken wie BLEU korrelieren nur lose mit menschlichen Urteilen, insbesondere bei flüssiger Generierung, was die anhaltende Debatte darüber befeuert, wann automatische Scores vertrauenswürdig sind und wann eine menschliche Evaluation erforderlich ist.

Key figures

  • Ron Artstein
  • Massimo Poesio
  • Kishore Papineni

Related topics

Seminal works

  • artstein2008
  • papineni2002

Frequently asked questions

Warum nicht einfach die Genauigkeit angeben?
Die Genauigkeit kann irreführend sein, wenn Klassen unausgewogen sind oder wenn sowohl falsch positive als auch falsch negative Ergebnisse unterschiedlich wichtig sind. Präzision, Recall und F-Maß bieten für die meisten Sprachaufgaben ein informativeres Bild.

Methods for this concept

Related concepts