Análise Sintática
A análise sintática é a tarefa de recuperar a estrutura gramatical de uma frase, atribuindo-lhe uma árvore de constituintes ou uma estrutura de dependência que mostra como as palavras se combinam e se relacionam.
Definition
A análise sintática mapeia uma frase para uma representação de sua estrutura gramatical — tipicamente uma árvore de constituintes (estrutura de frase) ou um grafo de dependência — de acordo com uma gramática ou um modelo aprendido a partir de dados anotados.
Scope
Este tópico abrange a análise da estrutura de frases: gramáticas livres de contexto e mais ricas, análise de constituintes (árvores de estrutura de frase) e análise de dependências (relações cabeça-dependente), algoritmos clássicos de análise de gráficos como CKY e Earley, e análise probabilística e orientada por dados treinada em treebanks. Aborda como a ambiguidade sintática é representada e resolvida. O uso posterior da estrutura sintática para computar o significado é abordado em semântica computacional.
Core questions
- Como a estrutura gramatical de uma frase é representada, como constituintes ou como dependências?
- Como os algoritmos de análise de gráficos exploram eficientemente as muitas análises possíveis de uma frase?
- Como a ambiguidade sintática é tratada e como os modelos probabilísticos escolhem entre as análises?
- Como os analisadores são treinados e avaliados usando corpora anotados (treebanks)?
Key concepts
- árvores de constituintes (estrutura de frase)
- estruturas de dependência
- gramática livre de contexto
- análise CKY e Earley
- gramática probabilística livre de contexto
- ambiguidade sintática
- treebanks
- etiquetas de classe gramatical
Key theories
- Gramáticas livres de contexto e análise de gráficos
- As gramáticas livres de contexto modelam a estrutura de frase, e os analisadores de gráficos de programação dinâmica, como os algoritmos CKY e Earley, recuperam todas as análises válidas em tempo polinomial, reutilizando análises de subintervalos.
- Análise probabilística
- Atribuir probabilidades às regras gramaticais (como nas gramáticas probabilísticas livres de contexto) permite que um analisador classifique análises concorrentes e selecione a estrutura mais provável, abordando a ambiguidade generalizada da sintaxe da linguagem natural.
- Treebanks e análise orientada por dados
- Grandes corpora anotados, como o Penn Treebank, forneceram os dados de treinamento e avaliação que transformaram a análise em uma tarefa orientada por dados, permitindo que analisadores estatísticos e, posteriormente, neurais fossem aprendidos a partir de estruturas anotadas por humanos.
Clinical relevance
A análise sintática suporta a verificação gramatical, extração de informações, resposta a perguntas e tradução automática, ao expor como as palavras se agrupam e se relacionam; a estrutura de dependência, em particular, é amplamente utilizada como entrada para sistemas semânticos e de extração posteriores.
History
A análise sintática baseou-se nas gramáticas formais de Chomsky; os algoritmos CKY (década de 1960) e Earley (1970) proporcionaram uma análise eficiente livre de contexto. O Penn Treebank (1993) catalisou a análise estatística, e os analisadores probabilísticos e, posteriormente, neurais melhoraram progressivamente a precisão e a robustez em textos reais.
Key figures
- Noam Chomsky
- Tadao Kasami
- Jay Earley
- Mitchell P. Marcus
- Christopher D. Manning
Related topics
Seminal works
- marcus1993
- jurafsky2023
Frequently asked questions
- Qual é a diferença entre análise de constituintes e análise de dependências?
- A análise de constituintes agrupa palavras em frases aninhadas (como sintagmas nominais e sintagmas verbais), produzindo uma árvore de constituintes. A análise de dependências, em vez disso, liga cada palavra à palavra da qual ela depende (sua cabeça), produzindo um grafo de relações gramaticais. Ambas capturam a estrutura sintática, mas enfatizam aspectos diferentes.
- Por que a análise sintática é difícil, apesar de as gramáticas serem bem definidas?
- As frases em linguagem natural são altamente ambíguas: uma única frase pode ter muitas estruturas gramaticalmente válidas, e o número pode crescer rapidamente com o comprimento da frase. Escolher a análise pretendida requer preferências estatísticas ou aprendidas, não apenas uma gramática, o que torna a análise um desafio.