Marcação Gramatical (Part-of-Speech Tagging) e Rotulagem de Sequências
Atribuir um rótulo a cada token em uma frase — sua classe gramatical, tipo de entidade nomeada ou tag de chunk — usando modelos probabilísticos de sequência, como modelos ocultos de Markov e campos aleatórios condicionais.
Definition
A rotulagem de sequência é a tarefa de atribuir um rótulo categórico a cada elemento de uma sequência de entrada, sendo a marcação gramatical (part-of-speech tagging) sua instância canônica.
Scope
Abrange tarefas de rotulagem de sequência centrais para a análise superficial: marcação gramatical (part-of-speech tagging), reconhecimento de entidades nomeadas e chunking. Inclui os modelos padrão — modelos ocultos de Markov, modelos de Markov de entropia máxima, campos aleatórios condicionais e marcadores de sequência neurais — e conjuntos de tags como o Penn Treebank e o Universal POS. A análise sintática completa é abordada em tópicos relacionados.
Core questions
- Como os modelos ocultos de Markov atribuem a sequência de tags mais provável?
- Por que os campos aleatórios condicionais superam os modelos localmente normalizados?
- Como os conjuntos de tags são projetados e padronizados entre idiomas?
- Como a rotulagem de sequência apoia a análise sintática e a extração subsequentes?
Key concepts
- tag de classe gramatical
- modelo oculto de Markov
- algoritmo de Viterbi
- campo aleatório condicional
- reconhecimento de entidade nomeada
- chunking
- conjunto de tags
- codificação BIO
Key theories
- Marcação por modelo oculto de Markov
- Modelagem de uma sequência de tags como uma cadeia de Markov que emite palavras observadas, com o algoritmo de Viterbi recuperando eficientemente a sequência de tags mais provável.
- Campos aleatórios condicionais
- Modelos discriminativos globalmente normalizados para rotulagem de sequência que condicionam a entrada completa e evitam o viés de rótulo de modelos localmente normalizados.
History
A marcação POS foi um sucesso inicial do PNL estatístico, uma vez que o Penn Treebank (1993) forneceu grandes volumes de dados anotados. Os marcadores de modelo oculto de Markov deram lugar a modelos discriminativos de entropia máxima e de campos aleatórios condicionais por volta de 2001, que, por sua vez, foram absorvidos por rotuladores de sequência neurais na década de 2010.
Debates
- Modelos de sequência generativos versus discriminativos
- Seja para modelar a distribuição conjunta de palavras e tags (HMMs) ou para condicionar os rótulos diretamente na entrada (CRFs); modelos discriminativos geralmente ganham em precisão quando recursos ricos estão disponíveis.
Key figures
- Mitchell Marcus
- John Lafferty
- Andrew McCallum
- Fernando Pereira
Related topics
Seminal works
- marcus1993
- lafferty2001
Frequently asked questions
- Por que a marcação gramatical (part-of-speech tagging) não é trivial?
- Muitas palavras são ambíguas — 'book' pode ser um substantivo ou um verbo — então a tag correta depende do contexto. Modelos de sequência resolvem isso considerando palavras e tags circundantes em conjunto.