Warum nicht einfach die Genauigkeit angeben?

Die Genauigkeit kann irreführend sein, wenn Klassen unausgewogen sind oder wenn sowohl falsch positive als auch falsch negative Ergebnisse unterschiedlich wichtig sind. Präzision, Recall und F-Maß bieten für die meisten Sprachaufgaben ein informativeres Bild.

Evaluation und Annotation

Die Methodik zur Messung von Sprachverarbeitungssystemen: Erstellung annotierter Korpora, Quantifizierung der Übereinstimmung zwischen Annotatoren und Bewertung der Systemausgabe mit Metriken, die einen fairen Vergleich ermöglichen.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Evaluation und Annotation ist die Gesamtheit der Praktiken zur Erstellung zuverlässiger gelabelter Daten und zur Messung, wie gut computergestützte Systeme diese Labels reproduzieren oder vorhersagen.

Scope

Umfasst die empirische Infrastruktur der Computerlinguistik – manuelle Annotationsschemata und -richtlinien, Statistiken zur Inter-Annotator-Übereinstimmung wie Kappa, Train/Development/Test-Partitionierung und Evaluationsmetriken einschließlich Präzision, Recall, F-Maß, Genauigkeit und aufgabenspezifische Scores wie BLEU. Es werden Validitäts- und Reproduzierbarkeitsbedenken behandelt, jedoch nicht das Design einzelner nachgelagerter Systeme.

Core questions

Wie messen wir, ob Annotatoren übereinstimmen, und warum ist die zufallsbereinigte Übereinstimmung wichtig?
Welche Metriken sind für Klassifikations-, Sequenzlabeling- und Generierungsaufgaben geeignet?
Wie schützen Train/Development/Test-Splits vor Overfitting und überhöhten Ergebnissen?
Was macht eine Evaluation reproduzierbar und vergleichbar über Studien hinweg?

Key concepts

Inter-Annotator-Übereinstimmung
Kappa-Statistik
Präzision und Recall
F-Maß
Train/Development/Test-Split
BLEU
Annotationsrichtlinien
Goldstandard

Key theories

Zufallsbereinigte Übereinstimmung: Die Zuverlässigkeit der Annotation sollte mit Koeffizienten wie Cohens oder Fleiss' Kappa gemessen werden, die die zufällig erwartete Übereinstimmung abziehen, nicht die rohe prozentuale Übereinstimmung.
Automatische N-Gramm-Overlap-Evaluierung: Die Generierungsqualität kann kostengünstig durch den Vergleich der Systemausgabe mit Referenzen mittels N-Gramm-Overlap, wie bei BLEU, angenähert werden, was trotz bekannter Einschränkungen eine schnelle Iteration ermöglicht.

History

Als sich korpusbasierte Methoden in den 1990er Jahren verbreiteten, benötigte das Feld gemeinsame Standards für die Datenkennzeichnung und Systembewertung. Aus der Inhaltsanalyse entlehnte Übereinstimmungsstatistiken wurden an die linguistische Annotation angepasst, wie von Artstein und Poesio maßgeblich beschrieben, während Metriken wie BLEU (2002) die automatische Bewertung der Generierung praktikabel machten und die Kultur der Shared Tasks prägten.

Debates

Messen automatische Metriken die Qualität?: Metriken wie BLEU korrelieren nur lose mit menschlichen Urteilen, insbesondere bei flüssiger Generierung, was die anhaltende Debatte darüber befeuert, wann automatische Scores vertrauenswürdig sind und wann eine menschliche Evaluation erforderlich ist.

Key figures

Ron Artstein
Massimo Poesio
Kishore Papineni

Seminal works

artstein2008
papineni2002

Frequently asked questions

Warum nicht einfach die Genauigkeit angeben?: Die Genauigkeit kann irreführend sein, wenn Klassen unausgewogen sind oder wenn sowohl falsch positive als auch falsch negative Ergebnisse unterschiedlich wichtig sind. Präzision, Recall und F-Maß bieten für die meisten Sprachaufgaben ein informativeres Bild.