ScholarGate
Assistente

Linguística de Corpus e Corpora da Web

Estudo da linguagem através de grandes amostras de texto autêntico: construção e consulta de corpora, medição de colocações e frequências, e aproveitamento da Web como um vasto recurso linguístico.

Encontrar tema com PaperMindEm breveFind papers & topics
Tools & resources
Baixar slides
Learn & explore
VídeoEm breve

Definition

A linguística de corpus é o estudo empírico da linguagem baseado em coleções sistemáticas de texto que ocorre naturalmente, analisadas com medidas de frequência, concordância e associação.

Scope

Abrange o design, compilação e análise de corpora de texto — amostragem e equilíbrio, concordância e análise de palavras-chave, estatísticas de frequência e colocação, como informação mútua, e o uso da Web como corpus. Aborda tanto a linguística de corpus descritiva quanto o fornecimento de dados para sistemas computacionais. Esquemas de anotação e treebanks são abordados em um tópico relacionado.

Core questions

  • Como os corpora são amostrados para representar uma variedade linguística de forma justa?
  • Como as medidas de associação, como a informação mútua, revelam colocações?
  • Quais são os benefícios e as armadilhas de usar a Web como um corpus?
  • Como as concordâncias apoiam a análise linguística e lexicográfica?

Key concepts

  • design de corpus
  • concordância
  • colocação
  • informação mútua pontual
  • distribuição de frequência
  • análise de palavras-chave
  • Web como corpus
  • corpus equilibrado

Key theories

Medidas de associação para colocação
Uso de estatísticas como a informação mútua pontual para detectar pares de palavras que coocorrem mais do que o acaso, revelando colocações e apoiando a lexicografia.
Web como corpus
Tratar a Web como um corpus enorme, embora descontrolado, permitindo o estudo de fenômenos raros e variedades de baixo recurso, ao mesmo tempo em que levanta questões de representatividade.

History

A linguística de corpus surgiu dos projetos lexicográficos de Sinclair e da construção de corpora equilibrados, enquanto o trabalho de Church e Hanks de 1989 sobre informação mútua trouxe as medidas estatísticas de associação para o mainstream. Kilgarriff e Grefenstette mais tarde estabeleceram a Web como um corpus legítimo, embora ruidoso, de escala sem precedentes.

Debates

Representatividade dos dados da Web
Os corpora da Web são enormes, mas desequilibrados e difíceis de caracterizar, o que provoca debate sobre até que ponto as conclusões tiradas deles se generalizam para uma língua como um todo.

Key figures

  • Adam Kilgarriff
  • Kenneth Church
  • Patrick Hanks
  • John Sinclair

Related topics

Seminal works

  • church1989
  • kilgarriff2003

Frequently asked questions

O que é uma colocação?
Uma colocação é um par ou grupo de palavras que habitualmente ocorrem juntas com mais frequência do que o acaso preveria, como 'chá forte' em vez de 'chá poderoso'. Medidas de associação ajudam a detectá-las automaticamente.

Methods for this concept

Related concepts