Fundamentos da Linguística Computacional
A base matemática e metodológica da linguística computacional: gramáticas formais, autômatos, técnicas de estados finitos, modelos de linguagem probabilísticos e as práticas de avaliação que permitem comparar sistemas rigorosamente.
Definition
Fundamentos da linguística computacional é o estudo dos primitivos formais, algorítmicos e estatísticos usados para representar e processar a linguagem natural por máquina.
Scope
Esta área abrange as abstrações sobre as quais são construídos os tratamentos computacionais da linguagem. Inclui a hierarquia de Chomsky de linguagens formais e os autômatos que as reconhecem, expressões regulares e transdutores de estados finitos como ferramentas práticas para tokenização e morfologia, modelos de linguagem n-grama e probabilísticos, e o aparato experimental — corpora, anotação, divisões de treino/teste e métricas de avaliação — que sustenta o trabalho empírico. Exclui aplicações específicas a jusante e análise sintática profunda, que são tratadas em suas próprias áreas.
Sub-topics
Core questions
- Que classes de linguagens formais existem e quais autômatos as reconhecem?
- Como os métodos de estados finitos podem modelar a tokenização, a ortografia e a morfologia de forma eficiente?
- Como atribuímos probabilidades a sequências de palavras e por que isso ajuda?
- Como os sistemas de processamento de linguagem devem ser avaliados para que os resultados sejam comparáveis e reproduzíveis?
Key concepts
- hierarquia de Chomsky
- autômato de estados finitos
- expressão regular
- gramática livre de contexto
- modelo n-grama
- suavização
- perplexidade
- corpus e anotação
Key theories
- Hierarquia de Chomsky
- Uma hierarquia de contenção de classes de linguagens formais (regular, livre de contexto, sensível ao contexto, recursivamente enumerável), cada uma ligada a uma classe de gramática e uma máquina abstrata, que enquadra o poder computacional necessário para descrever fenômenos da linguagem natural.
- Modelagem de linguagem probabilística
- Tratar a linguagem como um processo estocástico e estimar a probabilidade de sequências de palavras, classicamente via modelos n-grama com suavização, fornecendo uma base para reconhecimento de fala, correção ortográfica e geração.
History
A linguística computacional herdou seu núcleo formal do trabalho da década de 1950 sobre a teoria da linguagem formal (Chomsky) e a teoria da informação (Shannon), que juntas sugeriram tanto gramáticas simbólicas quanto modelos probabilísticos da linguagem. Os métodos de estados finitos amadureceram ao longo da década de 1980 como ferramentas eficientes para morfologia e fonologia, enquanto a revolução estatística da década de 1990, documentada por Manning e Schütze, tornou a modelagem probabilística baseada em corpus o paradigma empírico dominante.
Debates
- Gramáticas simbólicas versus modelos estatísticos
- Se a linguagem natural é melhor capturada por regras formais construídas manualmente ou por distribuições de probabilidade estimadas a partir de dados; o campo tem convergido amplamente para abordagens híbridas e orientadas por dados, mantendo as gramáticas formais como ferramentas analíticas.
Key figures
- Noam Chomsky
- Claude Shannon
- Daniel Jurafsky
- James H. Martin
- Christopher Manning
Related topics
Seminal works
- chomsky1956
- manning1999
- jurafsky2025
Frequently asked questions
- Por que os linguistas computacionais se preocupam com a hierarquia de Chomsky?
- Ela indica o maquinário computacional mínimo que um fenômeno requer: padrões regulares podem ser tratados por ferramentas rápidas de estados finitos, enquanto fenômenos como orações aninhadas precisam de pelo menos poder livre de contexto. Escolher o nível certo mantém os sistemas adequados e eficientes.
- Modelagem de linguagem é o mesmo que um modelo de linguagem grande?
- Eles compartilham a mesma tarefa central — atribuir probabilidades a sequências de palavras — mas os modelos de linguagem clássicos eram contadores de n-gramas, enquanto os modelos de linguagem grandes modernos usam redes neurais. A ideia fundamental é idêntica; o método de estimação difere.