O que faz um bom corpus?

Um bom corpus é grande o suficiente para estatísticas confiáveis e representativo da variedade de linguagem estudada, com documentação clara de suas fontes, amostragem e qualquer anotação para que os resultados possam ser interpretados e reproduzidos.

Recursos Lexicais e de Corpus

As bases de dados e de conhecimento das quais a linguística computacional empírica depende: corpora de texto, bases de dados lexicais e ontologias, tratamentos computacionais da estrutura das palavras e treebanks ricamente anotados.

Encontrar tema com PaperMindEm breveFind papers & topics

Tools & resources

Baixar slides

Learn & explore

VídeoEm breve

Definition

Recursos lexicais e de corpus são coleções estruturadas de dados de linguagem — textos, léxicos e anotações — construídas para apoiar a análise empírica e o treinamento de sistemas de processamento de linguagem.

Scope

Abrange a construção, curadoria e uso de recursos linguísticos — corpora balanceados e da web, bases de dados léxico-semânticas como o WordNet, morfologia computacional e léxicos, e treebanks anotados. Aborda o design de corpus, representatividade, padrões de anotação e o papel dos recursos no treinamento e avaliação de sistemas. A modelagem algorítmica que consome esses recursos é abordada em outras áreas.

Sub-topics

Core questions

Como os corpora são projetados para serem representativos e balanceados?
Como os significados das palavras podem ser organizados em bases de dados lexicais legíveis por máquina?
Como a estrutura das palavras é representada computacionalmente em línguas morfologicamente ricas?
Por que os treebanks anotados são centrais para a linguística orientada por dados?

Key concepts

corpus
representatividade
base de dados lexical
WordNet
synset
léxico morfológico
treebank
padrão de anotação

Key theories

Empirismo baseado em corpus: A postura metodológica de que as generalizações linguísticas e os parâmetros do sistema devem ser fundamentados em grandes amostras de uso atestado, em vez de apenas introspecção.
Redes léxico-semânticas: Organizar o léxico como um grafo de sentidos ligados por relações como sinonímia e hiperonímia, como no WordNet, apoiando tarefas desde a desambiguação até a similaridade semântica.

History

A mudança para métodos empíricos na década de 1990 tornou os corpora e os recursos lexicais fundamentais. O WordNet forneceu uma base de dados léxico-semântica reutilizável, corpora balanceados como o British National Corpus estabeleceram padrões de design, e o trabalho de Kilgarriff e Grefenstette legitimou a própria Web como um vasto corpus para estudo linguístico.

Debates

Corpora balanceados versus a Web como corpus: Se corpora cuidadosamente balanceados ou a Web, desorganizada mas enorme, servem melhor à investigação linguística; o campo usa cada vez mais ambos, ponderando a representatividade em relação à escala.

Key figures

Christiane Fellbaum
Adam Kilgarriff
Christopher Manning
George Miller

Seminal works

fellbaum1998
kilgarriff2003
manning1999

Frequently asked questions

O que faz um bom corpus?: Um bom corpus é grande o suficiente para estatísticas confiáveis e representativo da variedade de linguagem estudada, com documentação clara de suas fontes, amostragem e qualquer anotação para que os resultados possam ser interpretados e reproduzidos.