ScholarGate
Assistant

Constitution et gestion de corpus

Toute lecture computationnelle dépend d'un corpus, et aucun corpus n'est neutre. Les choix concernant ce qu'il faut inclure, la manière de nettoyer et de structurer les textes, et les métadonnées à associer façonnent chaque résultat qui en découle — faisant de la construction de corpus un acte scientifique à part entière.

Trouver un sujet avec PaperMindBientôtFind papers & topics
Tools & resources
Télécharger les diapositives
Learn & explore
VidéoBientôt

Definition

L'assemblage méthodique, le traitement, la documentation et la maintenance de collections de textes utilisées pour l'analyse computationnelle, accompagnés d'une attention critique à la manière dont ces collections sont sélectionnées et façonnées.

Scope

Couvre la constitution et la gestion de corpus textuels pour l'analyse computationnelle : sélection et échantillonnage, nettoyage et normalisation, reconnaissance optique de caractères et transcription, métadonnées et documentation. Inclut une réflexion critique sur la représentativité, les biais et la nature construite des jeux de données en sciences humaines. Abordé ici sous l'angle des humanités numériques plutôt que de la linguistique de corpus.

Core questions

  • Que signifie pour un corpus de représenter un ensemble de littérature ou d'histoire ?
  • Comment les décisions de nettoyage, de ROC et de normalisation affectent-elles l'analyse ultérieure ?
  • Quelles métadonnées et quelle documentation un corpus réutilisable nécessite-t-il ?
  • Quels textes sont absents des collections numériques disponibles, et pourquoi ?

Key concepts

  • Échantillonnage
  • Représentativité
  • ROC
  • Normalisation
  • Provenance
  • Documentation

Key theories

Les données comme construites, non données
Gitelman et ses collaborateurs ont soutenu que les données sont toujours élaborées — sélectionnées, nettoyées, encadrées — de sorte que les 'données brutes' sont un terme impropre et que chaque jeu de données véhicule les hypothèses de sa construction.
La représentativité et le corpus littéraire
Underwood a montré comment la composition et les biais des collections numériques façonnent les affirmations sur l'évolution littéraire, faisant de l'échantillonnage et de la provenance des préoccupations méthodologiques centrales.
Les collections comme arguments scientifiques
Bode a soutenu que les collections numériques sous-jacentes à l'histoire littéraire computationnelle sont elles-mêmes des constructions interprétatives, et que les chercheurs doivent rendre compte de la manière dont une collection a été constituée.

History

À mesure que l'analyse computationnelle de textes s'est développée, les chercheurs ont de plus en plus reconnu que les résultats dépendent des corpus qui les sous-tendent. L'ouvrage de Gitelman (2013) a remis en question l'idée de données neutres ; Bode (2018) et Underwood (2019) ont explicité la construction et les biais des collections littéraires, établissant la gestion de corpus comme une préoccupation méthodologique et critique.

Debates

Représentativité versus disponibilité
Les corpus sont souvent construits à partir de ce qui a été numérisé, ce qui tend à privilégier certaines langues, périodes et œuvres canoniques, soulevant la question de la généralisation des conclusions.

Key figures

  • Ted Underwood
  • Katherine Bode
  • Lisa Gitelman

Related topics

Seminal works

  • gitelman2013
  • bode2018
  • underwood2019

Frequently asked questions

Pourquoi ne puis-je pas simplement télécharger un grand ensemble de textes et les analyser ?
Parce que la composition de cet ensemble détermine vos résultats. Les collections disponibles sont inégales et biaisées en faveur de ce qui a été numérisé, et la ROC non corrigée introduit des erreurs. La documentation de la sélection, de la provenance et du traitement est essentielle pour interpréter et se fier à toute découverte computationnelle.

Methods for this concept

Related concepts