Recursos Lexicais e de Corpus
As bases de dados e de conhecimento das quais a linguística computacional empírica depende: corpora de texto, bases de dados lexicais e ontologias, tratamentos computacionais da estrutura das palavras e treebanks ricamente anotados.
Definition
Recursos lexicais e de corpus são coleções estruturadas de dados de linguagem — textos, léxicos e anotações — construídas para apoiar a análise empírica e o treinamento de sistemas de processamento de linguagem.
Scope
Abrange a construção, curadoria e uso de recursos linguísticos — corpora balanceados e da web, bases de dados léxico-semânticas como o WordNet, morfologia computacional e léxicos, e treebanks anotados. Aborda o design de corpus, representatividade, padrões de anotação e o papel dos recursos no treinamento e avaliação de sistemas. A modelagem algorítmica que consome esses recursos é abordada em outras áreas.
Sub-topics
Core questions
- Como os corpora são projetados para serem representativos e balanceados?
- Como os significados das palavras podem ser organizados em bases de dados lexicais legíveis por máquina?
- Como a estrutura das palavras é representada computacionalmente em línguas morfologicamente ricas?
- Por que os treebanks anotados são centrais para a linguística orientada por dados?
Key concepts
- corpus
- representatividade
- base de dados lexical
- WordNet
- synset
- léxico morfológico
- treebank
- padrão de anotação
Key theories
- Empirismo baseado em corpus
- A postura metodológica de que as generalizações linguísticas e os parâmetros do sistema devem ser fundamentados em grandes amostras de uso atestado, em vez de apenas introspecção.
- Redes léxico-semânticas
- Organizar o léxico como um grafo de sentidos ligados por relações como sinonímia e hiperonímia, como no WordNet, apoiando tarefas desde a desambiguação até a similaridade semântica.
History
A mudança para métodos empíricos na década de 1990 tornou os corpora e os recursos lexicais fundamentais. O WordNet forneceu uma base de dados léxico-semântica reutilizável, corpora balanceados como o British National Corpus estabeleceram padrões de design, e o trabalho de Kilgarriff e Grefenstette legitimou a própria Web como um vasto corpus para estudo linguístico.
Debates
- Corpora balanceados versus a Web como corpus
- Se corpora cuidadosamente balanceados ou a Web, desorganizada mas enorme, servem melhor à investigação linguística; o campo usa cada vez mais ambos, ponderando a representatividade em relação à escala.
Key figures
- Christiane Fellbaum
- Adam Kilgarriff
- Christopher Manning
- George Miller
Related topics
Seminal works
- fellbaum1998
- kilgarriff2003
- manning1999
Frequently asked questions
- O que faz um bom corpus?
- Um bom corpus é grande o suficiente para estatísticas confiáveis e representativo da variedade de linguagem estudada, com documentação clara de suas fontes, amostragem e qualquer anotação para que os resultados possam ser interpretados e reproduzidos.