Treebanks e Corpora Anotados
Corpora anotados manualmente com estrutura linguística — árvores sintáticas, dependências, sentidos e entidades — que servem como dados de treinamento e padrões-ouro para a linguística computacional.
Definition
Um treebank é um corpus no qual cada frase é anotada com sua estrutura sintática; de forma mais ampla, um corpus anotado contém rótulos linguísticos explícitos adicionados por humanos.
Scope
Abrange o design e a construção de corpora anotados, especialmente treebanks que contêm sintaxe de constituintes ou de dependência, e os pipelines de anotação, diretrizes e controle de qualidade por trás deles. Inclui a tradição do Penn Treebank e o esforço de Dependências Universais multilíngues, e o papel do acordo inter-anotadores. O design geral de corpora e os recursos lexicais são abordados em tópicos relacionados.
Core questions
- Como os treebanks são projetados e quais esquemas de anotação eles utilizam?
- Por que os corpora anotados são indispensáveis para o aprendizado supervisionado?
- Como a qualidade da anotação é assegurada e medida?
- Como a anotação multilíngue, como as Dependências Universais, alcança consistência?
Key concepts
- treebank
- esquema de anotação
- diretrizes de anotação
- padrão-ouro
- acordo inter-anotadores
- Penn Treebank
- Universal Dependencies
- adjudicação
Key theories
- Aprendizado supervisionado baseado em Treebank
- Corpora sintáticos anotados manualmente fornecem o sinal de supervisão que tornou possível a análise sintática estatística, a rotulagem e muitas tarefas de PNL.
- Anotação harmonizada multilíngue
- As Dependências Universais aplicam um único esquema de anotação em muitos idiomas, permitindo treebanks comparáveis e a transferência de modelos.
History
O Penn Treebank (1993) foi o primeiro grande corpus sintaticamente anotado e catalisou a análise sintática estatística. Treebanks subsequentes adicionaram camadas semânticas e de discurso, e o projeto Universal Dependencies padronizou a anotação entre idiomas, tornando-se o recurso de treebank multilíngue de fato.
Debates
- Profundidade da anotação versus consistência
- Uma anotação mais rica captura mais detalhes linguísticos, mas é mais difícil de aplicar consistentemente; os projetos devem equilibrar a sofisticação teórica com uma anotação confiável e escalável.
Key figures
- Mitchell Marcus
- Beatrice Santorini
- Marie-Catherine de Marneffe
- Joakim Nivre
Related topics
Seminal works
- marcus1993
- demarneffe2021
Frequently asked questions
- Por que construir treebanks manualmente se já existem analisadores sintáticos?
- Os analisadores sintáticos são treinados e avaliados em relação a treebanks anotados por humanos, que servem como padrão-ouro. Sem uma anotação manual confiável, não haveria nada para aprender ou para medir a precisão.