¿Por qué no puedo simplemente descargar un montón de textos y analizarlos?

Porque la composición de ese montón determina sus resultados. Las colecciones disponibles son desiguales y están sesgadas hacia lo que se ha digitalizado, y el OCR no corregido introduce errores. Documentar la selección, la procedencia y el procesamiento es esencial para interpretar y confiar en cualquier hallazgo computacional.

Construcción y Curación de Corpus

Cada lectura computacional depende de un corpus, y ningún corpus es neutral. Las decisiones sobre qué incluir, cómo limpiar y estructurar los textos, y qué metadatos adjuntar, dan forma a cada resultado posterior, lo que convierte la construcción del corpus en un acto académico por derecho propio.

Encontrar tema con PaperMindPróximamenteFind papers & topics

Tools & resources

Descargar diapositivas

Learn & explore

VídeoPróximamente

Definition

El ensamblaje, procesamiento, documentación y mantenimiento fundamentado de colecciones de texto utilizadas para el análisis computacional, junto con una atención crítica a cómo se seleccionan y configuran esas colecciones.

Scope

Cubre la construcción y gestión de corpus de texto para el análisis computacional: selección y muestreo, limpieza y normalización, reconocimiento óptico de caracteres y transcripción, metadatos y documentación. Incluye una reflexión crítica sobre la representatividad, el sesgo y la naturaleza construida de los conjuntos de datos en humanidades. Se trata aquí desde una perspectiva de humanidades digitales, más que como lingüística de corpus.

Core questions

¿Qué significa para un corpus representar un cuerpo de literatura o historia?
¿Cómo afectan las decisiones de limpieza, OCR y normalización al análisis posterior?
¿Qué metadatos y documentación necesita un corpus reutilizable?
¿Qué textos faltan en las colecciones digitales disponibles y por qué?

Key concepts

Muestreo
Representatividad
OCR
Normalización
Procedencia
Documentación

Key theories

Los datos como construidos, no dados: Gitelman y sus colaboradores argumentaron que los datos siempre se construyen —se seleccionan, limpian, enmarcan—, por lo que 'datos brutos' es un término erróneo y cada conjunto de datos conlleva los supuestos de su construcción.
Representatividad y el corpus literario: Underwood discutió cómo la composición y los sesgos de las colecciones digitales dan forma a las afirmaciones sobre el cambio literario, haciendo del muestreo y la procedencia preocupaciones metodológicas centrales.
Las colecciones como argumentos académicos: Bode argumentó que las colecciones digitales que sustentan la historia literaria computacional son en sí mismas constructos interpretativos, y que los académicos deben dar cuenta de cómo se construyó una colección.

History

A medida que crecía el análisis computacional de textos, los académicos reconocieron cada vez más que los resultados dependen de los corpus que los respaldan. El volumen de Gitelman de 2013 cuestionó la idea de datos neutrales; Bode (2018) y Underwood (2019) hicieron explícitas la construcción y el sesgo de las colecciones literarias, estableciendo la curación de corpus como una preocupación metodológica y crítica.

Debates

Representatividad versus disponibilidad: Los corpus a menudo se construyen a partir de lo que se ha digitalizado, lo que se inclina hacia ciertos idiomas, períodos y obras canónicas, lo que plantea la cuestión de hasta qué punto se pueden generalizar las conclusiones.

Key figures

Ted Underwood
Katherine Bode
Lisa Gitelman

Seminal works

gitelman2013
bode2018
underwood2019

Frequently asked questions

¿Por qué no puedo simplemente descargar un montón de textos y analizarlos?: Porque la composición de ese montón determina sus resultados. Las colecciones disponibles son desiguales y están sesgadas hacia lo que se ha digitalizado, y el OCR no corregido introduce errores. Documentar la selección, la procedencia y el procesamiento es esencial para interpretar y confiar en cualquier hallazgo computacional.