Constitution et gestion de corpus
Toute lecture computationnelle dépend d'un corpus, et aucun corpus n'est neutre. Les choix concernant ce qu'il faut inclure, la manière de nettoyer et de structurer les textes, et les métadonnées à associer façonnent chaque résultat qui en découle — faisant de la construction de corpus un acte scientifique à part entière.
Definition
L'assemblage méthodique, le traitement, la documentation et la maintenance de collections de textes utilisées pour l'analyse computationnelle, accompagnés d'une attention critique à la manière dont ces collections sont sélectionnées et façonnées.
Scope
Couvre la constitution et la gestion de corpus textuels pour l'analyse computationnelle : sélection et échantillonnage, nettoyage et normalisation, reconnaissance optique de caractères et transcription, métadonnées et documentation. Inclut une réflexion critique sur la représentativité, les biais et la nature construite des jeux de données en sciences humaines. Abordé ici sous l'angle des humanités numériques plutôt que de la linguistique de corpus.
Core questions
- Que signifie pour un corpus de représenter un ensemble de littérature ou d'histoire ?
- Comment les décisions de nettoyage, de ROC et de normalisation affectent-elles l'analyse ultérieure ?
- Quelles métadonnées et quelle documentation un corpus réutilisable nécessite-t-il ?
- Quels textes sont absents des collections numériques disponibles, et pourquoi ?
Key concepts
- Échantillonnage
- Représentativité
- ROC
- Normalisation
- Provenance
- Documentation
Key theories
- Les données comme construites, non données
- Gitelman et ses collaborateurs ont soutenu que les données sont toujours élaborées — sélectionnées, nettoyées, encadrées — de sorte que les 'données brutes' sont un terme impropre et que chaque jeu de données véhicule les hypothèses de sa construction.
- La représentativité et le corpus littéraire
- Underwood a montré comment la composition et les biais des collections numériques façonnent les affirmations sur l'évolution littéraire, faisant de l'échantillonnage et de la provenance des préoccupations méthodologiques centrales.
- Les collections comme arguments scientifiques
- Bode a soutenu que les collections numériques sous-jacentes à l'histoire littéraire computationnelle sont elles-mêmes des constructions interprétatives, et que les chercheurs doivent rendre compte de la manière dont une collection a été constituée.
History
À mesure que l'analyse computationnelle de textes s'est développée, les chercheurs ont de plus en plus reconnu que les résultats dépendent des corpus qui les sous-tendent. L'ouvrage de Gitelman (2013) a remis en question l'idée de données neutres ; Bode (2018) et Underwood (2019) ont explicité la construction et les biais des collections littéraires, établissant la gestion de corpus comme une préoccupation méthodologique et critique.
Debates
- Représentativité versus disponibilité
- Les corpus sont souvent construits à partir de ce qui a été numérisé, ce qui tend à privilégier certaines langues, périodes et œuvres canoniques, soulevant la question de la généralisation des conclusions.
Key figures
- Ted Underwood
- Katherine Bode
- Lisa Gitelman
Related topics
Seminal works
- gitelman2013
- bode2018
- underwood2019
Frequently asked questions
- Pourquoi ne puis-je pas simplement télécharger un grand ensemble de textes et les analyser ?
- Parce que la composition de cet ensemble détermine vos résultats. Les collections disponibles sont inégales et biaisées en faveur de ce qui a été numérisé, et la ROC non corrigée introduit des erreurs. La documentation de la sélection, de la provenance et du traitement est essentielle pour interpréter et se fier à toute découverte computationnelle.