Construcción y Curación de Corpus
Cada lectura computacional depende de un corpus, y ningún corpus es neutral. Las decisiones sobre qué incluir, cómo limpiar y estructurar los textos, y qué metadatos adjuntar, dan forma a cada resultado posterior, lo que convierte la construcción del corpus en un acto académico por derecho propio.
Definition
El ensamblaje, procesamiento, documentación y mantenimiento fundamentado de colecciones de texto utilizadas para el análisis computacional, junto con una atención crítica a cómo se seleccionan y configuran esas colecciones.
Scope
Cubre la construcción y gestión de corpus de texto para el análisis computacional: selección y muestreo, limpieza y normalización, reconocimiento óptico de caracteres y transcripción, metadatos y documentación. Incluye una reflexión crítica sobre la representatividad, el sesgo y la naturaleza construida de los conjuntos de datos en humanidades. Se trata aquí desde una perspectiva de humanidades digitales, más que como lingüística de corpus.
Core questions
- ¿Qué significa para un corpus representar un cuerpo de literatura o historia?
- ¿Cómo afectan las decisiones de limpieza, OCR y normalización al análisis posterior?
- ¿Qué metadatos y documentación necesita un corpus reutilizable?
- ¿Qué textos faltan en las colecciones digitales disponibles y por qué?
Key concepts
- Muestreo
- Representatividad
- OCR
- Normalización
- Procedencia
- Documentación
Key theories
- Los datos como construidos, no dados
- Gitelman y sus colaboradores argumentaron que los datos siempre se construyen —se seleccionan, limpian, enmarcan—, por lo que 'datos brutos' es un término erróneo y cada conjunto de datos conlleva los supuestos de su construcción.
- Representatividad y el corpus literario
- Underwood discutió cómo la composición y los sesgos de las colecciones digitales dan forma a las afirmaciones sobre el cambio literario, haciendo del muestreo y la procedencia preocupaciones metodológicas centrales.
- Las colecciones como argumentos académicos
- Bode argumentó que las colecciones digitales que sustentan la historia literaria computacional son en sí mismas constructos interpretativos, y que los académicos deben dar cuenta de cómo se construyó una colección.
History
A medida que crecía el análisis computacional de textos, los académicos reconocieron cada vez más que los resultados dependen de los corpus que los respaldan. El volumen de Gitelman de 2013 cuestionó la idea de datos neutrales; Bode (2018) y Underwood (2019) hicieron explícitas la construcción y el sesgo de las colecciones literarias, estableciendo la curación de corpus como una preocupación metodológica y crítica.
Debates
- Representatividad versus disponibilidad
- Los corpus a menudo se construyen a partir de lo que se ha digitalizado, lo que se inclina hacia ciertos idiomas, períodos y obras canónicas, lo que plantea la cuestión de hasta qué punto se pueden generalizar las conclusiones.
Key figures
- Ted Underwood
- Katherine Bode
- Lisa Gitelman
Related topics
Seminal works
- gitelman2013
- bode2018
- underwood2019
Frequently asked questions
- ¿Por qué no puedo simplemente descargar un montón de textos y analizarlos?
- Porque la composición de ese montón determina sus resultados. Las colecciones disponibles son desiguales y están sesgadas hacia lo que se ha digitalizado, y el OCR no corregido introduce errores. Documentar la selección, la procedencia y el procesamiento es esencial para interpretar y confiar en cualquier hallazgo computacional.