ScholarGate
Asistente

Treebanks y Corpus Anotados

Corpus anotados manualmente con estructura lingüística — árboles sintácticos, dependencias, sentidos y entidades — que sirven como datos de entrenamiento y estándares de oro para la lingüística computacional.

Encontrar tema con PaperMindPróximamenteFind papers & topics
Tools & resources
Descargar diapositivas
Learn & explore
VídeoPróximamente

Definition

Un treebank es un corpus en el que cada oración se anota con su estructura sintáctica; de manera más amplia, un corpus anotado contiene etiquetas lingüísticas explícitas añadidas por humanos.

Scope

Cubre el diseño y la construcción de corpus anotados, especialmente treebanks que contienen sintaxis de constituyentes o de dependencias, y los procesos de anotación, las directrices y el control de calidad que los sustentan. Incluye la tradición del Penn Treebank y el esfuerzo interlingüístico de Universal Dependencies, así como el papel del acuerdo entre anotadores. El diseño general de corpus y los recursos léxicos se tratan en temas relacionados.

Core questions

  • ¿Cómo se diseñan los treebanks y qué esquemas de anotación utilizan?
  • ¿Por qué son indispensables los corpus anotados para el aprendizaje supervisado?
  • ¿Cómo se asegura y se mide la calidad de la anotación?
  • ¿Cómo logra la consistencia la anotación interlingüística como Universal Dependencies?

Key concepts

  • treebank
  • esquema de anotación
  • directrices de anotación
  • estándar de oro
  • acuerdo entre anotadores
  • Penn Treebank
  • Universal Dependencies
  • adjudicación

Key theories

Aprendizaje supervisado basado en treebanks
Los corpus sintácticos anotados manualmente proporcionan la señal de supervisión que hizo posible el análisis sintáctico estadístico, el etiquetado y muchas tareas de PNL.
Anotación armonizada interlingüística
Universal Dependencies aplica un único esquema de anotación a muchos idiomas, lo que permite treebanks comparables y la transferencia de modelos.

History

El Penn Treebank (1993) fue el primer corpus grande anotado sintácticamente y catalizó el análisis sintáctico estadístico. Los treebanks posteriores añadieron capas semánticas y discursivas, y el proyecto Universal Dependencies estandarizó la anotación en diferentes idiomas, convirtiéndose en el recurso de facto de treebanks multilingües.

Debates

Profundidad de la anotación versus consistencia
Una anotación más rica captura más detalles lingüísticos, pero es más difícil de aplicar de manera consistente; los proyectos deben equilibrar la sofisticación teórica con una anotación fiable y escalable.

Key figures

  • Mitchell Marcus
  • Beatrice Santorini
  • Marie-Catherine de Marneffe
  • Joakim Nivre

Related topics

Seminal works

  • marcus1993
  • demarneffe2021

Frequently asked questions

¿Por qué construir treebanks a mano si ya existen analizadores sintácticos?
Los analizadores sintácticos se entrenan y evalúan con treebanks anotados por humanos, que sirven como estándar de oro. Sin una anotación manual fiable, no habría nada de lo que aprender ni contra qué medir la precisión.

Methods for this concept

Related concepts