ScholarGate
Assistente

Marcação Gramatical (Part-of-Speech Tagging) e Rotulagem de Sequências

Atribuir um rótulo a cada token em uma frase — sua classe gramatical, tipo de entidade nomeada ou tag de chunk — usando modelos probabilísticos de sequência, como modelos ocultos de Markov e campos aleatórios condicionais.

Encontrar tema com PaperMindEm breveFind papers & topics
Tools & resources
Baixar slides
Learn & explore
VídeoEm breve

Definition

A rotulagem de sequência é a tarefa de atribuir um rótulo categórico a cada elemento de uma sequência de entrada, sendo a marcação gramatical (part-of-speech tagging) sua instância canônica.

Scope

Abrange tarefas de rotulagem de sequência centrais para a análise superficial: marcação gramatical (part-of-speech tagging), reconhecimento de entidades nomeadas e chunking. Inclui os modelos padrão — modelos ocultos de Markov, modelos de Markov de entropia máxima, campos aleatórios condicionais e marcadores de sequência neurais — e conjuntos de tags como o Penn Treebank e o Universal POS. A análise sintática completa é abordada em tópicos relacionados.

Core questions

  • Como os modelos ocultos de Markov atribuem a sequência de tags mais provável?
  • Por que os campos aleatórios condicionais superam os modelos localmente normalizados?
  • Como os conjuntos de tags são projetados e padronizados entre idiomas?
  • Como a rotulagem de sequência apoia a análise sintática e a extração subsequentes?

Key concepts

  • tag de classe gramatical
  • modelo oculto de Markov
  • algoritmo de Viterbi
  • campo aleatório condicional
  • reconhecimento de entidade nomeada
  • chunking
  • conjunto de tags
  • codificação BIO

Key theories

Marcação por modelo oculto de Markov
Modelagem de uma sequência de tags como uma cadeia de Markov que emite palavras observadas, com o algoritmo de Viterbi recuperando eficientemente a sequência de tags mais provável.
Campos aleatórios condicionais
Modelos discriminativos globalmente normalizados para rotulagem de sequência que condicionam a entrada completa e evitam o viés de rótulo de modelos localmente normalizados.

History

A marcação POS foi um sucesso inicial do PNL estatístico, uma vez que o Penn Treebank (1993) forneceu grandes volumes de dados anotados. Os marcadores de modelo oculto de Markov deram lugar a modelos discriminativos de entropia máxima e de campos aleatórios condicionais por volta de 2001, que, por sua vez, foram absorvidos por rotuladores de sequência neurais na década de 2010.

Debates

Modelos de sequência generativos versus discriminativos
Seja para modelar a distribuição conjunta de palavras e tags (HMMs) ou para condicionar os rótulos diretamente na entrada (CRFs); modelos discriminativos geralmente ganham em precisão quando recursos ricos estão disponíveis.

Key figures

  • Mitchell Marcus
  • John Lafferty
  • Andrew McCallum
  • Fernando Pereira

Related topics

Seminal works

  • marcus1993
  • lafferty2001

Frequently asked questions

Por que a marcação gramatical (part-of-speech tagging) não é trivial?
Muitas palavras são ambíguas — 'book' pode ser um substantivo ou um verbo — então a tag correta depende do contexto. Modelos de sequência resolvem isso considerando palavras e tags circundantes em conjunto.

Methods for this concept

Related concepts