Analyse textuelle computationnelle
Lorsque des questions littéraires et historiques sont posées à l'échelle de milliers ou de millions de textes, l'approche computationnelle devient une méthode de lecture. Ce domaine regroupe les techniques quantitatives que les humanités numériques utilisent pour identifier des motifs dans de vastes corpus textuels — ainsi que le débat animé sur la signification de ces motifs.
Definition
L'application de techniques quantitatives et computationnelles à de vastes collections de textes des sciences humaines afin de détecter des motifs, de modéliser les changements littéraires ou historiques, et de poser des questions interprétatives à des échelles dépassant la lecture attentive (close reading).
Scope
Couvre les méthodes quantitatives et computationnelles appliquées aux textes des sciences humaines : la lecture à distance (distant reading) et la macroanalyse, la stylométrie et l'attribution d'auteur, la modélisation thématique (topic modeling) et l'exploration de texte (text mining), ainsi que la constitution des corpus que ces méthodes requièrent. Inclut les débats méthodologiques concernant la validité et la valeur interprétative des études littéraires computationnelles. Se distingue de la linguistique de corpus et du traitement automatique du langage naturel (TALN), qui relèvent de la linguistique et de l'informatique.
Sub-topics
Core questions
- Que peut révéler l'analyse quantitative à grande échelle que la lecture attentive (close reading) ne peut pas ?
- Dans quelle mesure les motifs identifiés par l'approche computationnelle dans les textes sont-ils fiables et interprétables ?
- Comment la construction du corpus et le prétraitement (preprocessing) influencent-ils les résultats ?
- Comment les preuves computationnelles devraient-elles s'articuler avec l'interprétation littéraire et historique ?
Key concepts
- Lecture à distance (Distant reading)
- Corpus
- Caractéristique (Feature)
- Modèle statistique
- Prétraitement (Preprocessing)
- Interprétation à l'échelle
Key theories
- Lecture à distance (Distant reading)
- Moretti a proposé d'étudier la littérature à travers des motifs et des abstractions à grande échelle plutôt que par la lecture attentive (close reading) d'un petit nombre d'œuvres canoniques, recadrant ainsi l'histoire littéraire comme un problème d'échelle.
- Macroanalyse
- Jockers a soutenu que les méthodes numériques permettent une histoire littéraire statistique de corpus entiers, révélant l'influence et la structure stylistique invisibles au niveau des œuvres individuelles.
- Modélisation du changement littéraire
- Underwood a utilisé la modélisation prédictive de vastes collections pour soutenir que des catégories telles que le genre et le prestige évoluent souvent de manière graduelle et continue.
History
Ses racines se trouvent dans la construction de concordances et l'informatique appliquée aux sciences humaines (humanities computing) du milieu du XXe siècle. La lecture à distance (distant reading) de Moretti (années 2000), la Macroanalyse de Jockers (2013) et Distant Horizons d'Underwood (2019) ont consolidé les études littéraires computationnelles, tandis que la critique de Da en 2019 a aiguisé le débat sur la rigueur statistique et le rendement interprétatif.
Debates
- Rigueur statistique versus valeur interprétative
- Da a soutenu qu'une grande partie des travaux littéraires computationnels est statistiquement faible ou interprétativement mince ; les défenseurs affirment que ces méthodes ouvrent de nouvelles questions authentiques lorsqu'elles sont utilisées avec précaution.
Key figures
- Franco Moretti
- Matthew L. Jockers
- Ted Underwood
- Nan Z. Da
Related topics
Seminal works
- moretti2013
- jockers2013
- underwood2019
- da2019
Frequently asked questions
- En quoi cela diffère-t-il de la linguistique de corpus ou du TALN ?
- Ce domaine partage des techniques avec la linguistique de corpus et le traitement automatique du langage naturel (TALN), mais il est motivé par des questions humanistiques — histoire littéraire, attribution d'auteur, changement culturel — plutôt que par la modélisation du langage lui-même ou la création d'applications. Les objectifs interprétatifs, et les débats qui les entourent, sont caractéristiques des humanités numériques.