Pourquoi ne pas simplement rapporter l'exactitude ?

L'exactitude peut être trompeuse lorsque les classes sont déséquilibrées ou lorsque les faux positifs et les faux négatifs ont une importance différente. La précision, le rappel et la mesure F offrent une image plus informative pour la plupart des tâches linguistiques.

Évaluation et Annotation

La méthodologie de mesure des systèmes de traitement du langage : construction de corpus annotés, quantification de l'accord entre annotateurs et évaluation des sorties de système à l'aide de métriques permettant une comparaison équitable.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

L'évaluation et l'annotation constituent l'ensemble des pratiques visant à produire des données étiquetées fiables et à mesurer la capacité des systèmes computationnels à reproduire ou à prédire ces étiquettes.

Scope

Couvre l'infrastructure empirique de la linguistique computationnelle — schémas et directives d'annotation manuelle, statistiques d'accord inter-annotateurs telles que le kappa, partitionnement en ensembles d'entraînement/développement/test, et métriques d'évaluation incluant la précision, le rappel, la mesure F, l'exactitude, et des scores spécifiques à la tâche comme le BLEU. Il aborde les préoccupations de validité et de reproductibilité, mais pas la conception des systèmes aval individuels.

Core questions

Comment mesure-t-on l'accord entre annotateurs, et pourquoi l'accord corrigé du hasard est-il important ?
Quelles métriques sont appropriées pour les tâches de classification, d'étiquetage de séquences et de génération ?
Comment les divisions en ensembles d'entraînement/développement/test protègent-elles contre le surapprentissage et les résultats artificiellement élevés ?
Qu'est-ce qui rend une évaluation reproductible et comparable entre différentes études ?

Key concepts

accord inter-annotateurs
statistique kappa
précision et rappel
mesure F
division entraînement/développement/test
BLEU
directives d'annotation
étalon-or

Key theories

Accord corrigé du hasard: La fiabilité de l'annotation devrait être mesurée à l'aide de coefficients tels que le kappa de Cohen ou de Fleiss, qui soustraient l'accord attendu par le hasard, plutôt que par un simple pourcentage d'accord brut.
Évaluation automatique par chevauchement de n-grammes: La qualité de la génération peut être approximée à moindre coût en comparant la sortie du système à des références via le chevauchement de n-grammes, comme dans le cas du BLEU, permettant une itération rapide malgré des limitations connues.

History

Alors que les méthodes basées sur les corpus se sont répandues dans les années 1990, le domaine a eu besoin de normes communes pour l'étiquetage des données et l'évaluation des systèmes. Les statistiques d'accord empruntées à l'analyse de contenu ont été adaptées à l'annotation linguistique, comme l'ont présenté de manière faisant autorité Artstein et Poesio, tandis que des métriques comme le BLEU (2002) ont rendu l'évaluation automatique de la génération réalisable et ont façonné la culture des tâches partagées.

Debates

Les métriques automatiques mesurent-elles la qualité ?: Des métriques telles que le BLEU ne corrèlent que faiblement avec les jugements humains, en particulier pour la génération fluide, alimentant un débat continu sur la fiabilité des scores automatiques par rapport à la nécessité d'une évaluation humaine.

Key figures

Ron Artstein
Massimo Poesio
Kishore Papineni

Seminal works

artstein2008
papineni2002

Frequently asked questions

Pourquoi ne pas simplement rapporter l'exactitude ?: L'exactitude peut être trompeuse lorsque les classes sont déséquilibrées ou lorsque les faux positifs et les faux négatifs ont une importance différente. La précision, le rappel et la mesure F offrent une image plus informative pour la plupart des tâches linguistiques.