Evaluación y Anotación
La metodología para medir sistemas de procesamiento del lenguaje: construcción de corpus anotados, cuantificación del acuerdo entre anotadores y puntuación de la salida del sistema con métricas que permiten una comparación justa.
Definition
La evaluación y anotación es el conjunto de prácticas para producir datos etiquetados fiables y para medir qué tan bien los sistemas computacionales reproducen o predicen esas etiquetas.
Scope
Cubre la infraestructura empírica de la lingüística computacional: esquemas y directrices de anotación manual, estadísticas de acuerdo entre anotadores como kappa, particionamiento de entrenamiento/desarrollo/prueba, y métricas de evaluación que incluyen precisión, exhaustividad (recall), medida F, exactitud (accuracy), y puntuaciones específicas de la tarea como BLEU. Aborda las preocupaciones de validez y reproducibilidad, pero no el diseño de sistemas individuales posteriores.
Core questions
- ¿Cómo medimos si los anotadores están de acuerdo, y por qué es importante el acuerdo corregido por azar?
- ¿Qué métricas son apropiadas para tareas de clasificación, etiquetado de secuencias y generación?
- ¿Cómo protegen las divisiones de entrenamiento/desarrollo/prueba contra el sobreajuste y los resultados inflados?
- ¿Qué hace que una evaluación sea reproducible y comparable entre estudios?
Key concepts
- acuerdo entre anotadores
- estadístico kappa
- precisión y exhaustividad (recall)
- medida F
- división entrenamiento/desarrollo/prueba
- BLEU
- directrices de anotación
- estándar de oro
Key theories
- Acuerdo corregido por azar
- La fiabilidad de la anotación debe medirse con coeficientes como el kappa de Cohen o de Fleiss que restan el acuerdo esperado por azar, no el porcentaje de acuerdo bruto.
- Evaluación automática de superposición de n-gramas
- La calidad de la generación puede aproximarse de forma económica comparando la salida del sistema con referencias mediante la superposición de n-gramas, como en BLEU, lo que permite una iteración rápida a pesar de las limitaciones conocidas.
History
A medida que los métodos basados en corpus se extendieron en la década de 1990, el campo necesitó estándares compartidos para etiquetar datos y puntuar sistemas. Las estadísticas de acuerdo tomadas del análisis de contenido se adaptaron a la anotación lingüística, encuestadas con autoridad por Artstein y Poesio, mientras que métricas como BLEU (2002) hicieron que la evaluación automática de la generación fuera factible y moldearon la cultura de las tareas compartidas.
Debates
- ¿Las métricas automáticas miden la calidad?
- Métricas como BLEU se correlacionan solo vagamente con los juicios humanos, especialmente para la generación fluida, lo que alimenta un debate continuo sobre cuándo las puntuaciones automáticas son fiables y cuándo se requiere una evaluación humana.
Key figures
- Ron Artstein
- Massimo Poesio
- Kishore Papineni
Related topics
Seminal works
- artstein2008
- papineni2002
Frequently asked questions
- ¿Por qué no simplemente informar la exactitud (accuracy)?
- La exactitud puede ser engañosa cuando las clases están desequilibradas o cuando tanto los falsos positivos como los falsos negativos importan de manera diferente. La precisión, la exhaustividad (recall) y la medida F ofrecen una imagen más informativa para la mayoría de las tareas de lenguaje.