ScholarGate
Assistente

Construção e Curadoria de Corpus

Toda leitura computacional depende de um corpus, e nenhum corpus é neutro. As escolhas sobre o que incluir, como limpar e estruturar os textos, e quais metadados anexar moldam cada resultado subsequente — tornando a construção do corpus um ato acadêmico por si só.

Encontrar tema com PaperMindEm breveFind papers & topics
Tools & resources
Baixar slides
Learn & explore
VídeoEm breve

Definition

A montagem, processamento, documentação e manutenção criteriosa de coleções de texto usadas para análise computacional, juntamente com atenção crítica à forma como essas coleções são selecionadas e moldadas.

Scope

Abrange a construção e gestão de corpora de texto para análise computacional: seleção e amostragem, limpeza e normalização, reconhecimento óptico de caracteres e transcrição, metadados e documentação. Inclui reflexão crítica sobre representatividade, viés e a natureza construída dos conjuntos de dados das humanidades. Tratado aqui de uma perspectiva das humanidades digitais, e não como linguística de corpus.

Core questions

  • O que significa para um corpus representar um corpo de literatura ou história?
  • Como as decisões de limpeza, OCR e normalização afetam a análise subsequente?
  • Quais metadados e documentação um corpus reutilizável necessita?
  • Quais textos estão faltando nas coleções digitais disponíveis e por quê?

Key concepts

  • Amostragem
  • Representatividade
  • OCR
  • Normalização
  • Proveniência
  • Documentação

Key theories

Dados como construídos, não dados
Gitelman e colaboradores argumentaram que os dados são sempre feitos — selecionados, limpos, enquadrados — portanto, 'dados brutos' é um termo impróprio e cada conjunto de dados carrega as suposições de sua construção.
Representatividade e o corpus literário
Underwood discutiu como a composição e os vieses das coleções digitais moldam as afirmações sobre a mudança literária, tornando a amostragem e a proveniência preocupações metodológicas centrais.
Coleções como argumentos acadêmicos
Bode argumentou que as coleções digitais que sustentam a história literária computacional são, por si mesmas, construtos interpretativos, e que os estudiosos devem considerar como uma coleção foi construída.

History

À medida que a análise computacional de texto cresceu, os estudiosos reconheceram cada vez mais que os resultados dependem dos corpora subjacentes. O volume de Gitelman de 2013 desafiou a ideia de dados neutros; Bode (2018) e Underwood (2019) tornaram explícitas a construção e o viés das coleções literárias, estabelecendo a curadoria de corpus como uma preocupação metodológica e crítica.

Debates

Representatividade versus disponibilidade
Os corpora são frequentemente construídos a partir do que foi digitalizado, o que tende a favorecer certas línguas, períodos e obras canônicas, levantando a questão de até que ponto as conclusões podem ser generalizadas.

Key figures

  • Ted Underwood
  • Katherine Bode
  • Lisa Gitelman

Related topics

Seminal works

  • gitelman2013
  • bode2018
  • underwood2019

Frequently asked questions

Por que não posso simplesmente baixar um grande volume de textos e analisá-los?
Porque a composição desse volume determina seus resultados. As coleções disponíveis são desiguais e tendenciosas em relação ao que foi digitalizado, e o OCR não corrigido introduz erros. Documentar a seleção, a proveniência e o processamento é essencial para interpretar e confiar em qualquer achado computacional.

Methods for this concept

Related concepts