Treebanks y Corpus Anotados
Corpus anotados manualmente con estructura lingüística — árboles sintácticos, dependencias, sentidos y entidades — que sirven como datos de entrenamiento y estándares de oro para la lingüística computacional.
Definition
Un treebank es un corpus en el que cada oración se anota con su estructura sintáctica; de manera más amplia, un corpus anotado contiene etiquetas lingüísticas explícitas añadidas por humanos.
Scope
Cubre el diseño y la construcción de corpus anotados, especialmente treebanks que contienen sintaxis de constituyentes o de dependencias, y los procesos de anotación, las directrices y el control de calidad que los sustentan. Incluye la tradición del Penn Treebank y el esfuerzo interlingüístico de Universal Dependencies, así como el papel del acuerdo entre anotadores. El diseño general de corpus y los recursos léxicos se tratan en temas relacionados.
Core questions
- ¿Cómo se diseñan los treebanks y qué esquemas de anotación utilizan?
- ¿Por qué son indispensables los corpus anotados para el aprendizaje supervisado?
- ¿Cómo se asegura y se mide la calidad de la anotación?
- ¿Cómo logra la consistencia la anotación interlingüística como Universal Dependencies?
Key concepts
- treebank
- esquema de anotación
- directrices de anotación
- estándar de oro
- acuerdo entre anotadores
- Penn Treebank
- Universal Dependencies
- adjudicación
Key theories
- Aprendizaje supervisado basado en treebanks
- Los corpus sintácticos anotados manualmente proporcionan la señal de supervisión que hizo posible el análisis sintáctico estadístico, el etiquetado y muchas tareas de PNL.
- Anotación armonizada interlingüística
- Universal Dependencies aplica un único esquema de anotación a muchos idiomas, lo que permite treebanks comparables y la transferencia de modelos.
History
El Penn Treebank (1993) fue el primer corpus grande anotado sintácticamente y catalizó el análisis sintáctico estadístico. Los treebanks posteriores añadieron capas semánticas y discursivas, y el proyecto Universal Dependencies estandarizó la anotación en diferentes idiomas, convirtiéndose en el recurso de facto de treebanks multilingües.
Debates
- Profundidad de la anotación versus consistencia
- Una anotación más rica captura más detalles lingüísticos, pero es más difícil de aplicar de manera consistente; los proyectos deben equilibrar la sofisticación teórica con una anotación fiable y escalable.
Key figures
- Mitchell Marcus
- Beatrice Santorini
- Marie-Catherine de Marneffe
- Joakim Nivre
Related topics
Seminal works
- marcus1993
- demarneffe2021
Frequently asked questions
- ¿Por qué construir treebanks a mano si ya existen analizadores sintácticos?
- Los analizadores sintácticos se entrenan y evalúan con treebanks anotados por humanos, que sirven como estándar de oro. Sin una anotación manual fiable, no habría nada de lo que aprender ni contra qué medir la precisión.