¿Por qué no simplemente informar la exactitud (accuracy)?

La exactitud puede ser engañosa cuando las clases están desequilibradas o cuando tanto los falsos positivos como los falsos negativos importan de manera diferente. La precisión, la exhaustividad (recall) y la medida F ofrecen una imagen más informativa para la mayoría de las tareas de lenguaje.

Evaluación y Anotación

La metodología para medir sistemas de procesamiento del lenguaje: construcción de corpus anotados, cuantificación del acuerdo entre anotadores y puntuación de la salida del sistema con métricas que permiten una comparación justa.

Encontrar tema con PaperMindPróximamenteFind papers & topics

Tools & resources

Descargar diapositivas

Learn & explore

VídeoPróximamente

Definition

La evaluación y anotación es el conjunto de prácticas para producir datos etiquetados fiables y para medir qué tan bien los sistemas computacionales reproducen o predicen esas etiquetas.

Scope

Cubre la infraestructura empírica de la lingüística computacional: esquemas y directrices de anotación manual, estadísticas de acuerdo entre anotadores como kappa, particionamiento de entrenamiento/desarrollo/prueba, y métricas de evaluación que incluyen precisión, exhaustividad (recall), medida F, exactitud (accuracy), y puntuaciones específicas de la tarea como BLEU. Aborda las preocupaciones de validez y reproducibilidad, pero no el diseño de sistemas individuales posteriores.

Core questions

¿Cómo medimos si los anotadores están de acuerdo, y por qué es importante el acuerdo corregido por azar?
¿Qué métricas son apropiadas para tareas de clasificación, etiquetado de secuencias y generación?
¿Cómo protegen las divisiones de entrenamiento/desarrollo/prueba contra el sobreajuste y los resultados inflados?
¿Qué hace que una evaluación sea reproducible y comparable entre estudios?

Key concepts

acuerdo entre anotadores
estadístico kappa
precisión y exhaustividad (recall)
medida F
división entrenamiento/desarrollo/prueba
BLEU
directrices de anotación
estándar de oro

Key theories

Acuerdo corregido por azar: La fiabilidad de la anotación debe medirse con coeficientes como el kappa de Cohen o de Fleiss que restan el acuerdo esperado por azar, no el porcentaje de acuerdo bruto.
Evaluación automática de superposición de n-gramas: La calidad de la generación puede aproximarse de forma económica comparando la salida del sistema con referencias mediante la superposición de n-gramas, como en BLEU, lo que permite una iteración rápida a pesar de las limitaciones conocidas.

History

A medida que los métodos basados en corpus se extendieron en la década de 1990, el campo necesitó estándares compartidos para etiquetar datos y puntuar sistemas. Las estadísticas de acuerdo tomadas del análisis de contenido se adaptaron a la anotación lingüística, encuestadas con autoridad por Artstein y Poesio, mientras que métricas como BLEU (2002) hicieron que la evaluación automática de la generación fuera factible y moldearon la cultura de las tareas compartidas.

Debates

¿Las métricas automáticas miden la calidad?: Métricas como BLEU se correlacionan solo vagamente con los juicios humanos, especialmente para la generación fluida, lo que alimenta un debate continuo sobre cuándo las puntuaciones automáticas son fiables y cuándo se requiere una evaluación humana.

Key figures

Ron Artstein
Massimo Poesio
Kishore Papineni

Seminal works

artstein2008
papineni2002

Frequently asked questions

¿Por qué no simplemente informar la exactitud (accuracy)?: La exactitud puede ser engañosa cuando las clases están desequilibradas o cuando tanto los falsos positivos como los falsos negativos importan de manera diferente. La precisión, la exhaustividad (recall) y la medida F ofrecen una imagen más informativa para la mayoría de las tareas de lenguaje.