Por que não posso simplesmente baixar um grande volume de textos e analisá-los?

Porque a composição desse volume determina seus resultados. As coleções disponíveis são desiguais e tendenciosas em relação ao que foi digitalizado, e o OCR não corrigido introduz erros. Documentar a seleção, a proveniência e o processamento é essencial para interpretar e confiar em qualquer achado computacional.

Construção e Curadoria de Corpus

Toda leitura computacional depende de um corpus, e nenhum corpus é neutro. As escolhas sobre o que incluir, como limpar e estruturar os textos, e quais metadados anexar moldam cada resultado subsequente — tornando a construção do corpus um ato acadêmico por si só.

Encontrar tema com PaperMindEm breveFind papers & topics

Tools & resources

Baixar slides

Learn & explore

VídeoEm breve

Definition

A montagem, processamento, documentação e manutenção criteriosa de coleções de texto usadas para análise computacional, juntamente com atenção crítica à forma como essas coleções são selecionadas e moldadas.

Scope

Abrange a construção e gestão de corpora de texto para análise computacional: seleção e amostragem, limpeza e normalização, reconhecimento óptico de caracteres e transcrição, metadados e documentação. Inclui reflexão crítica sobre representatividade, viés e a natureza construída dos conjuntos de dados das humanidades. Tratado aqui de uma perspectiva das humanidades digitais, e não como linguística de corpus.

Core questions

O que significa para um corpus representar um corpo de literatura ou história?
Como as decisões de limpeza, OCR e normalização afetam a análise subsequente?
Quais metadados e documentação um corpus reutilizável necessita?
Quais textos estão faltando nas coleções digitais disponíveis e por quê?

Key concepts

Amostragem
Representatividade
OCR
Normalização
Proveniência
Documentação

Key theories

Dados como construídos, não dados: Gitelman e colaboradores argumentaram que os dados são sempre feitos — selecionados, limpos, enquadrados — portanto, 'dados brutos' é um termo impróprio e cada conjunto de dados carrega as suposições de sua construção.
Representatividade e o corpus literário: Underwood discutiu como a composição e os vieses das coleções digitais moldam as afirmações sobre a mudança literária, tornando a amostragem e a proveniência preocupações metodológicas centrais.
Coleções como argumentos acadêmicos: Bode argumentou que as coleções digitais que sustentam a história literária computacional são, por si mesmas, construtos interpretativos, e que os estudiosos devem considerar como uma coleção foi construída.

History

À medida que a análise computacional de texto cresceu, os estudiosos reconheceram cada vez mais que os resultados dependem dos corpora subjacentes. O volume de Gitelman de 2013 desafiou a ideia de dados neutros; Bode (2018) e Underwood (2019) tornaram explícitas a construção e o viés das coleções literárias, estabelecendo a curadoria de corpus como uma preocupação metodológica e crítica.

Debates

Representatividade versus disponibilidade: Os corpora são frequentemente construídos a partir do que foi digitalizado, o que tende a favorecer certas línguas, períodos e obras canônicas, levantando a questão de até que ponto as conclusões podem ser generalizadas.

Key figures

Ted Underwood
Katherine Bode
Lisa Gitelman

Seminal works

gitelman2013
bode2018
underwood2019

Frequently asked questions

Por que não posso simplesmente baixar um grande volume de textos e analisá-los?: Porque a composição desse volume determina seus resultados. As coleções disponíveis são desiguais e tendenciosas em relação ao que foi digitalizado, e o OCR não corrigido introduz erros. Documentar a seleção, a proveniência e o processamento é essencial para interpretar e confiar em qualquer achado computacional.