Por que a marcação gramatical (part-of-speech tagging) não é trivial?

Muitas palavras são ambíguas — 'book' pode ser um substantivo ou um verbo — então a tag correta depende do contexto. Modelos de sequência resolvem isso considerando palavras e tags circundantes em conjunto.

Marcação Gramatical (Part-of-Speech Tagging) e Rotulagem de Sequências

Atribuir um rótulo a cada token em uma frase — sua classe gramatical, tipo de entidade nomeada ou tag de chunk — usando modelos probabilísticos de sequência, como modelos ocultos de Markov e campos aleatórios condicionais.

Encontrar tema com PaperMindEm breveFind papers & topics

Tools & resources

Baixar slides

Learn & explore

VídeoEm breve

Definition

A rotulagem de sequência é a tarefa de atribuir um rótulo categórico a cada elemento de uma sequência de entrada, sendo a marcação gramatical (part-of-speech tagging) sua instância canônica.

Scope

Abrange tarefas de rotulagem de sequência centrais para a análise superficial: marcação gramatical (part-of-speech tagging), reconhecimento de entidades nomeadas e chunking. Inclui os modelos padrão — modelos ocultos de Markov, modelos de Markov de entropia máxima, campos aleatórios condicionais e marcadores de sequência neurais — e conjuntos de tags como o Penn Treebank e o Universal POS. A análise sintática completa é abordada em tópicos relacionados.

Core questions

Como os modelos ocultos de Markov atribuem a sequência de tags mais provável?
Por que os campos aleatórios condicionais superam os modelos localmente normalizados?
Como os conjuntos de tags são projetados e padronizados entre idiomas?
Como a rotulagem de sequência apoia a análise sintática e a extração subsequentes?

Key concepts

tag de classe gramatical
modelo oculto de Markov
algoritmo de Viterbi
campo aleatório condicional
reconhecimento de entidade nomeada
chunking
conjunto de tags
codificação BIO

Key theories

Marcação por modelo oculto de Markov: Modelagem de uma sequência de tags como uma cadeia de Markov que emite palavras observadas, com o algoritmo de Viterbi recuperando eficientemente a sequência de tags mais provável.
Campos aleatórios condicionais: Modelos discriminativos globalmente normalizados para rotulagem de sequência que condicionam a entrada completa e evitam o viés de rótulo de modelos localmente normalizados.

History

A marcação POS foi um sucesso inicial do PNL estatístico, uma vez que o Penn Treebank (1993) forneceu grandes volumes de dados anotados. Os marcadores de modelo oculto de Markov deram lugar a modelos discriminativos de entropia máxima e de campos aleatórios condicionais por volta de 2001, que, por sua vez, foram absorvidos por rotuladores de sequência neurais na década de 2010.

Debates

Modelos de sequência generativos versus discriminativos: Seja para modelar a distribuição conjunta de palavras e tags (HMMs) ou para condicionar os rótulos diretamente na entrada (CRFs); modelos discriminativos geralmente ganham em precisão quando recursos ricos estão disponíveis.

Key figures

Mitchell Marcus
John Lafferty
Andrew McCallum
Fernando Pereira

Seminal works

marcus1993
lafferty2001

Frequently asked questions

Por que a marcação gramatical (part-of-speech tagging) não é trivial?: Muitas palavras são ambíguas — 'book' pode ser um substantivo ou um verbo — então a tag correta depende do contexto. Modelos de sequência resolvem isso considerando palavras e tags circundantes em conjunto.