Evaluation und Annotation
Die Methodik zur Messung von Sprachverarbeitungssystemen: Erstellung annotierter Korpora, Quantifizierung der Übereinstimmung zwischen Annotatoren und Bewertung der Systemausgabe mit Metriken, die einen fairen Vergleich ermöglichen.
Definition
Evaluation und Annotation ist die Gesamtheit der Praktiken zur Erstellung zuverlässiger gelabelter Daten und zur Messung, wie gut computergestützte Systeme diese Labels reproduzieren oder vorhersagen.
Scope
Umfasst die empirische Infrastruktur der Computerlinguistik – manuelle Annotationsschemata und -richtlinien, Statistiken zur Inter-Annotator-Übereinstimmung wie Kappa, Train/Development/Test-Partitionierung und Evaluationsmetriken einschließlich Präzision, Recall, F-Maß, Genauigkeit und aufgabenspezifische Scores wie BLEU. Es werden Validitäts- und Reproduzierbarkeitsbedenken behandelt, jedoch nicht das Design einzelner nachgelagerter Systeme.
Core questions
- Wie messen wir, ob Annotatoren übereinstimmen, und warum ist die zufallsbereinigte Übereinstimmung wichtig?
- Welche Metriken sind für Klassifikations-, Sequenzlabeling- und Generierungsaufgaben geeignet?
- Wie schützen Train/Development/Test-Splits vor Overfitting und überhöhten Ergebnissen?
- Was macht eine Evaluation reproduzierbar und vergleichbar über Studien hinweg?
Key concepts
- Inter-Annotator-Übereinstimmung
- Kappa-Statistik
- Präzision und Recall
- F-Maß
- Train/Development/Test-Split
- BLEU
- Annotationsrichtlinien
- Goldstandard
Key theories
- Zufallsbereinigte Übereinstimmung
- Die Zuverlässigkeit der Annotation sollte mit Koeffizienten wie Cohens oder Fleiss' Kappa gemessen werden, die die zufällig erwartete Übereinstimmung abziehen, nicht die rohe prozentuale Übereinstimmung.
- Automatische N-Gramm-Overlap-Evaluierung
- Die Generierungsqualität kann kostengünstig durch den Vergleich der Systemausgabe mit Referenzen mittels N-Gramm-Overlap, wie bei BLEU, angenähert werden, was trotz bekannter Einschränkungen eine schnelle Iteration ermöglicht.
History
Als sich korpusbasierte Methoden in den 1990er Jahren verbreiteten, benötigte das Feld gemeinsame Standards für die Datenkennzeichnung und Systembewertung. Aus der Inhaltsanalyse entlehnte Übereinstimmungsstatistiken wurden an die linguistische Annotation angepasst, wie von Artstein und Poesio maßgeblich beschrieben, während Metriken wie BLEU (2002) die automatische Bewertung der Generierung praktikabel machten und die Kultur der Shared Tasks prägten.
Debates
- Messen automatische Metriken die Qualität?
- Metriken wie BLEU korrelieren nur lose mit menschlichen Urteilen, insbesondere bei flüssiger Generierung, was die anhaltende Debatte darüber befeuert, wann automatische Scores vertrauenswürdig sind und wann eine menschliche Evaluation erforderlich ist.
Key figures
- Ron Artstein
- Massimo Poesio
- Kishore Papineni
Related topics
Seminal works
- artstein2008
- papineni2002
Frequently asked questions
- Warum nicht einfach die Genauigkeit angeben?
- Die Genauigkeit kann irreführend sein, wenn Klassen unausgewogen sind oder wenn sowohl falsch positive als auch falsch negative Ergebnisse unterschiedlich wichtig sind. Präzision, Recall und F-Maß bieten für die meisten Sprachaufgaben ein informativeres Bild.