Évaluation et Annotation
La méthodologie de mesure des systèmes de traitement du langage : construction de corpus annotés, quantification de l'accord entre annotateurs et évaluation des sorties de système à l'aide de métriques permettant une comparaison équitable.
Definition
L'évaluation et l'annotation constituent l'ensemble des pratiques visant à produire des données étiquetées fiables et à mesurer la capacité des systèmes computationnels à reproduire ou à prédire ces étiquettes.
Scope
Couvre l'infrastructure empirique de la linguistique computationnelle — schémas et directives d'annotation manuelle, statistiques d'accord inter-annotateurs telles que le kappa, partitionnement en ensembles d'entraînement/développement/test, et métriques d'évaluation incluant la précision, le rappel, la mesure F, l'exactitude, et des scores spécifiques à la tâche comme le BLEU. Il aborde les préoccupations de validité et de reproductibilité, mais pas la conception des systèmes aval individuels.
Core questions
- Comment mesure-t-on l'accord entre annotateurs, et pourquoi l'accord corrigé du hasard est-il important ?
- Quelles métriques sont appropriées pour les tâches de classification, d'étiquetage de séquences et de génération ?
- Comment les divisions en ensembles d'entraînement/développement/test protègent-elles contre le surapprentissage et les résultats artificiellement élevés ?
- Qu'est-ce qui rend une évaluation reproductible et comparable entre différentes études ?
Key concepts
- accord inter-annotateurs
- statistique kappa
- précision et rappel
- mesure F
- division entraînement/développement/test
- BLEU
- directives d'annotation
- étalon-or
Key theories
- Accord corrigé du hasard
- La fiabilité de l'annotation devrait être mesurée à l'aide de coefficients tels que le kappa de Cohen ou de Fleiss, qui soustraient l'accord attendu par le hasard, plutôt que par un simple pourcentage d'accord brut.
- Évaluation automatique par chevauchement de n-grammes
- La qualité de la génération peut être approximée à moindre coût en comparant la sortie du système à des références via le chevauchement de n-grammes, comme dans le cas du BLEU, permettant une itération rapide malgré des limitations connues.
History
Alors que les méthodes basées sur les corpus se sont répandues dans les années 1990, le domaine a eu besoin de normes communes pour l'étiquetage des données et l'évaluation des systèmes. Les statistiques d'accord empruntées à l'analyse de contenu ont été adaptées à l'annotation linguistique, comme l'ont présenté de manière faisant autorité Artstein et Poesio, tandis que des métriques comme le BLEU (2002) ont rendu l'évaluation automatique de la génération réalisable et ont façonné la culture des tâches partagées.
Debates
- Les métriques automatiques mesurent-elles la qualité ?
- Des métriques telles que le BLEU ne corrèlent que faiblement avec les jugements humains, en particulier pour la génération fluide, alimentant un débat continu sur la fiabilité des scores automatiques par rapport à la nécessité d'une évaluation humaine.
Key figures
- Ron Artstein
- Massimo Poesio
- Kishore Papineni
Related topics
Seminal works
- artstein2008
- papineni2002
Frequently asked questions
- Pourquoi ne pas simplement rapporter l'exactitude ?
- L'exactitude peut être trompeuse lorsque les classes sont déséquilibrées ou lorsque les faux positifs et les faux négatifs ont une importance différente. La précision, le rappel et la mesure F offrent une image plus informative pour la plupart des tâches linguistiques.