Construção e Curadoria de Corpus
Toda leitura computacional depende de um corpus, e nenhum corpus é neutro. As escolhas sobre o que incluir, como limpar e estruturar os textos, e quais metadados anexar moldam cada resultado subsequente — tornando a construção do corpus um ato acadêmico por si só.
Definition
A montagem, processamento, documentação e manutenção criteriosa de coleções de texto usadas para análise computacional, juntamente com atenção crítica à forma como essas coleções são selecionadas e moldadas.
Scope
Abrange a construção e gestão de corpora de texto para análise computacional: seleção e amostragem, limpeza e normalização, reconhecimento óptico de caracteres e transcrição, metadados e documentação. Inclui reflexão crítica sobre representatividade, viés e a natureza construída dos conjuntos de dados das humanidades. Tratado aqui de uma perspectiva das humanidades digitais, e não como linguística de corpus.
Core questions
- O que significa para um corpus representar um corpo de literatura ou história?
- Como as decisões de limpeza, OCR e normalização afetam a análise subsequente?
- Quais metadados e documentação um corpus reutilizável necessita?
- Quais textos estão faltando nas coleções digitais disponíveis e por quê?
Key concepts
- Amostragem
- Representatividade
- OCR
- Normalização
- Proveniência
- Documentação
Key theories
- Dados como construídos, não dados
- Gitelman e colaboradores argumentaram que os dados são sempre feitos — selecionados, limpos, enquadrados — portanto, 'dados brutos' é um termo impróprio e cada conjunto de dados carrega as suposições de sua construção.
- Representatividade e o corpus literário
- Underwood discutiu como a composição e os vieses das coleções digitais moldam as afirmações sobre a mudança literária, tornando a amostragem e a proveniência preocupações metodológicas centrais.
- Coleções como argumentos acadêmicos
- Bode argumentou que as coleções digitais que sustentam a história literária computacional são, por si mesmas, construtos interpretativos, e que os estudiosos devem considerar como uma coleção foi construída.
History
À medida que a análise computacional de texto cresceu, os estudiosos reconheceram cada vez mais que os resultados dependem dos corpora subjacentes. O volume de Gitelman de 2013 desafiou a ideia de dados neutros; Bode (2018) e Underwood (2019) tornaram explícitas a construção e o viés das coleções literárias, estabelecendo a curadoria de corpus como uma preocupação metodológica e crítica.
Debates
- Representatividade versus disponibilidade
- Os corpora são frequentemente construídos a partir do que foi digitalizado, o que tende a favorecer certas línguas, períodos e obras canônicas, levantando a questão de até que ponto as conclusões podem ser generalizadas.
Key figures
- Ted Underwood
- Katherine Bode
- Lisa Gitelman
Related topics
Seminal works
- gitelman2013
- bode2018
- underwood2019
Frequently asked questions
- Por que não posso simplesmente baixar um grande volume de textos e analisá-los?
- Porque a composição desse volume determina seus resultados. As coleções disponíveis são desiguais e tendenciosas em relação ao que foi digitalizado, e o OCR não corrigido introduz erros. Documentar a seleção, a proveniência e o processamento é essencial para interpretar e confiar em qualquer achado computacional.