ScholarGate
Asistente

Evaluación y Anotación

La metodología para medir sistemas de procesamiento del lenguaje: construcción de corpus anotados, cuantificación del acuerdo entre anotadores y puntuación de la salida del sistema con métricas que permiten una comparación justa.

Encontrar tema con PaperMindPróximamenteFind papers & topics
Tools & resources
Descargar diapositivas
Learn & explore
VídeoPróximamente

Definition

La evaluación y anotación es el conjunto de prácticas para producir datos etiquetados fiables y para medir qué tan bien los sistemas computacionales reproducen o predicen esas etiquetas.

Scope

Cubre la infraestructura empírica de la lingüística computacional: esquemas y directrices de anotación manual, estadísticas de acuerdo entre anotadores como kappa, particionamiento de entrenamiento/desarrollo/prueba, y métricas de evaluación que incluyen precisión, exhaustividad (recall), medida F, exactitud (accuracy), y puntuaciones específicas de la tarea como BLEU. Aborda las preocupaciones de validez y reproducibilidad, pero no el diseño de sistemas individuales posteriores.

Core questions

  • ¿Cómo medimos si los anotadores están de acuerdo, y por qué es importante el acuerdo corregido por azar?
  • ¿Qué métricas son apropiadas para tareas de clasificación, etiquetado de secuencias y generación?
  • ¿Cómo protegen las divisiones de entrenamiento/desarrollo/prueba contra el sobreajuste y los resultados inflados?
  • ¿Qué hace que una evaluación sea reproducible y comparable entre estudios?

Key concepts

  • acuerdo entre anotadores
  • estadístico kappa
  • precisión y exhaustividad (recall)
  • medida F
  • división entrenamiento/desarrollo/prueba
  • BLEU
  • directrices de anotación
  • estándar de oro

Key theories

Acuerdo corregido por azar
La fiabilidad de la anotación debe medirse con coeficientes como el kappa de Cohen o de Fleiss que restan el acuerdo esperado por azar, no el porcentaje de acuerdo bruto.
Evaluación automática de superposición de n-gramas
La calidad de la generación puede aproximarse de forma económica comparando la salida del sistema con referencias mediante la superposición de n-gramas, como en BLEU, lo que permite una iteración rápida a pesar de las limitaciones conocidas.

History

A medida que los métodos basados en corpus se extendieron en la década de 1990, el campo necesitó estándares compartidos para etiquetar datos y puntuar sistemas. Las estadísticas de acuerdo tomadas del análisis de contenido se adaptaron a la anotación lingüística, encuestadas con autoridad por Artstein y Poesio, mientras que métricas como BLEU (2002) hicieron que la evaluación automática de la generación fuera factible y moldearon la cultura de las tareas compartidas.

Debates

¿Las métricas automáticas miden la calidad?
Métricas como BLEU se correlacionan solo vagamente con los juicios humanos, especialmente para la generación fluida, lo que alimenta un debate continuo sobre cuándo las puntuaciones automáticas son fiables y cuándo se requiere una evaluación humana.

Key figures

  • Ron Artstein
  • Massimo Poesio
  • Kishore Papineni

Related topics

Seminal works

  • artstein2008
  • papineni2002

Frequently asked questions

¿Por qué no simplemente informar la exactitud (accuracy)?
La exactitud puede ser engañosa cuando las clases están desequilibradas o cuando tanto los falsos positivos como los falsos negativos importan de manera diferente. La precisión, la exhaustividad (recall) y la medida F ofrecen una imagen más informativa para la mayoría de las tareas de lenguaje.

Methods for this concept

Related concepts