ScholarGate
Assistente

Treebanks e Corpora Anotados

Corpora anotados manualmente com estrutura linguística — árvores sintáticas, dependências, sentidos e entidades — que servem como dados de treinamento e padrões-ouro para a linguística computacional.

Encontrar tema com PaperMindEm breveFind papers & topics
Tools & resources
Baixar slides
Learn & explore
VídeoEm breve

Definition

Um treebank é um corpus no qual cada frase é anotada com sua estrutura sintática; de forma mais ampla, um corpus anotado contém rótulos linguísticos explícitos adicionados por humanos.

Scope

Abrange o design e a construção de corpora anotados, especialmente treebanks que contêm sintaxe de constituintes ou de dependência, e os pipelines de anotação, diretrizes e controle de qualidade por trás deles. Inclui a tradição do Penn Treebank e o esforço de Dependências Universais multilíngues, e o papel do acordo inter-anotadores. O design geral de corpora e os recursos lexicais são abordados em tópicos relacionados.

Core questions

  • Como os treebanks são projetados e quais esquemas de anotação eles utilizam?
  • Por que os corpora anotados são indispensáveis para o aprendizado supervisionado?
  • Como a qualidade da anotação é assegurada e medida?
  • Como a anotação multilíngue, como as Dependências Universais, alcança consistência?

Key concepts

  • treebank
  • esquema de anotação
  • diretrizes de anotação
  • padrão-ouro
  • acordo inter-anotadores
  • Penn Treebank
  • Universal Dependencies
  • adjudicação

Key theories

Aprendizado supervisionado baseado em Treebank
Corpora sintáticos anotados manualmente fornecem o sinal de supervisão que tornou possível a análise sintática estatística, a rotulagem e muitas tarefas de PNL.
Anotação harmonizada multilíngue
As Dependências Universais aplicam um único esquema de anotação em muitos idiomas, permitindo treebanks comparáveis e a transferência de modelos.

History

O Penn Treebank (1993) foi o primeiro grande corpus sintaticamente anotado e catalisou a análise sintática estatística. Treebanks subsequentes adicionaram camadas semânticas e de discurso, e o projeto Universal Dependencies padronizou a anotação entre idiomas, tornando-se o recurso de treebank multilíngue de fato.

Debates

Profundidade da anotação versus consistência
Uma anotação mais rica captura mais detalhes linguísticos, mas é mais difícil de aplicar consistentemente; os projetos devem equilibrar a sofisticação teórica com uma anotação confiável e escalável.

Key figures

  • Mitchell Marcus
  • Beatrice Santorini
  • Marie-Catherine de Marneffe
  • Joakim Nivre

Related topics

Seminal works

  • marcus1993
  • demarneffe2021

Frequently asked questions

Por que construir treebanks manualmente se já existem analisadores sintáticos?
Os analisadores sintáticos são treinados e avaliados em relação a treebanks anotados por humanos, que servem como padrão-ouro. Sem uma anotação manual confiável, não haveria nada para aprender ou para medir a precisão.

Methods for this concept

Related concepts