Linguística de Corpus e Corpora da Web
Estudo da linguagem através de grandes amostras de texto autêntico: construção e consulta de corpora, medição de colocações e frequências, e aproveitamento da Web como um vasto recurso linguístico.
Definition
A linguística de corpus é o estudo empírico da linguagem baseado em coleções sistemáticas de texto que ocorre naturalmente, analisadas com medidas de frequência, concordância e associação.
Scope
Abrange o design, compilação e análise de corpora de texto — amostragem e equilíbrio, concordância e análise de palavras-chave, estatísticas de frequência e colocação, como informação mútua, e o uso da Web como corpus. Aborda tanto a linguística de corpus descritiva quanto o fornecimento de dados para sistemas computacionais. Esquemas de anotação e treebanks são abordados em um tópico relacionado.
Core questions
- Como os corpora são amostrados para representar uma variedade linguística de forma justa?
- Como as medidas de associação, como a informação mútua, revelam colocações?
- Quais são os benefícios e as armadilhas de usar a Web como um corpus?
- Como as concordâncias apoiam a análise linguística e lexicográfica?
Key concepts
- design de corpus
- concordância
- colocação
- informação mútua pontual
- distribuição de frequência
- análise de palavras-chave
- Web como corpus
- corpus equilibrado
Key theories
- Medidas de associação para colocação
- Uso de estatísticas como a informação mútua pontual para detectar pares de palavras que coocorrem mais do que o acaso, revelando colocações e apoiando a lexicografia.
- Web como corpus
- Tratar a Web como um corpus enorme, embora descontrolado, permitindo o estudo de fenômenos raros e variedades de baixo recurso, ao mesmo tempo em que levanta questões de representatividade.
History
A linguística de corpus surgiu dos projetos lexicográficos de Sinclair e da construção de corpora equilibrados, enquanto o trabalho de Church e Hanks de 1989 sobre informação mútua trouxe as medidas estatísticas de associação para o mainstream. Kilgarriff e Grefenstette mais tarde estabeleceram a Web como um corpus legítimo, embora ruidoso, de escala sem precedentes.
Debates
- Representatividade dos dados da Web
- Os corpora da Web são enormes, mas desequilibrados e difíceis de caracterizar, o que provoca debate sobre até que ponto as conclusões tiradas deles se generalizam para uma língua como um todo.
Key figures
- Adam Kilgarriff
- Kenneth Church
- Patrick Hanks
- John Sinclair
Related topics
Seminal works
- church1989
- kilgarriff2003
Frequently asked questions
- O que é uma colocação?
- Uma colocação é um par ou grupo de palavras que habitualmente ocorrem juntas com mais frequência do que o acaso preveria, como 'chá forte' em vez de 'chá poderoso'. Medidas de associação ajudam a detectá-las automaticamente.