ScholarGate
Assistente

Recursos Lexicais e de Corpus

As bases de dados e de conhecimento das quais a linguística computacional empírica depende: corpora de texto, bases de dados lexicais e ontologias, tratamentos computacionais da estrutura das palavras e treebanks ricamente anotados.

Encontrar tema com PaperMindEm breveFind papers & topics
Tools & resources
Baixar slides
Learn & explore
VídeoEm breve

Definition

Recursos lexicais e de corpus são coleções estruturadas de dados de linguagem — textos, léxicos e anotações — construídas para apoiar a análise empírica e o treinamento de sistemas de processamento de linguagem.

Scope

Abrange a construção, curadoria e uso de recursos linguísticos — corpora balanceados e da web, bases de dados léxico-semânticas como o WordNet, morfologia computacional e léxicos, e treebanks anotados. Aborda o design de corpus, representatividade, padrões de anotação e o papel dos recursos no treinamento e avaliação de sistemas. A modelagem algorítmica que consome esses recursos é abordada em outras áreas.

Sub-topics

Core questions

  • Como os corpora são projetados para serem representativos e balanceados?
  • Como os significados das palavras podem ser organizados em bases de dados lexicais legíveis por máquina?
  • Como a estrutura das palavras é representada computacionalmente em línguas morfologicamente ricas?
  • Por que os treebanks anotados são centrais para a linguística orientada por dados?

Key concepts

  • corpus
  • representatividade
  • base de dados lexical
  • WordNet
  • synset
  • léxico morfológico
  • treebank
  • padrão de anotação

Key theories

Empirismo baseado em corpus
A postura metodológica de que as generalizações linguísticas e os parâmetros do sistema devem ser fundamentados em grandes amostras de uso atestado, em vez de apenas introspecção.
Redes léxico-semânticas
Organizar o léxico como um grafo de sentidos ligados por relações como sinonímia e hiperonímia, como no WordNet, apoiando tarefas desde a desambiguação até a similaridade semântica.

History

A mudança para métodos empíricos na década de 1990 tornou os corpora e os recursos lexicais fundamentais. O WordNet forneceu uma base de dados léxico-semântica reutilizável, corpora balanceados como o British National Corpus estabeleceram padrões de design, e o trabalho de Kilgarriff e Grefenstette legitimou a própria Web como um vasto corpus para estudo linguístico.

Debates

Corpora balanceados versus a Web como corpus
Se corpora cuidadosamente balanceados ou a Web, desorganizada mas enorme, servem melhor à investigação linguística; o campo usa cada vez mais ambos, ponderando a representatividade em relação à escala.

Key figures

  • Christiane Fellbaum
  • Adam Kilgarriff
  • Christopher Manning
  • George Miller

Related topics

Seminal works

  • fellbaum1998
  • kilgarriff2003
  • manning1999

Frequently asked questions

O que faz um bom corpus?
Um bom corpus é grande o suficiente para estatísticas confiáveis e representativo da variedade de linguagem estudada, com documentação clara de suas fontes, amostragem e qualquer anotação para que os resultados possam ser interpretados e reproduzidos.

Methods for this concept

Related concepts