En quoi cela diffère-t-il de la linguistique de corpus ou du TALN ?

Ce domaine partage des techniques avec la linguistique de corpus et le traitement automatique du langage naturel (TALN), mais il est motivé par des questions humanistiques — histoire littéraire, attribution d'auteur, changement culturel — plutôt que par la modélisation du langage lui-même ou la création d'applications. Les objectifs interprétatifs, et les débats qui les entourent, sont caractéristiques des humanités numériques.

Analyse textuelle computationnelle

Lorsque des questions littéraires et historiques sont posées à l'échelle de milliers ou de millions de textes, l'approche computationnelle devient une méthode de lecture. Ce domaine regroupe les techniques quantitatives que les humanités numériques utilisent pour identifier des motifs dans de vastes corpus textuels — ainsi que le débat animé sur la signification de ces motifs.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

L'application de techniques quantitatives et computationnelles à de vastes collections de textes des sciences humaines afin de détecter des motifs, de modéliser les changements littéraires ou historiques, et de poser des questions interprétatives à des échelles dépassant la lecture attentive (close reading).

Scope

Couvre les méthodes quantitatives et computationnelles appliquées aux textes des sciences humaines : la lecture à distance (distant reading) et la macroanalyse, la stylométrie et l'attribution d'auteur, la modélisation thématique (topic modeling) et l'exploration de texte (text mining), ainsi que la constitution des corpus que ces méthodes requièrent. Inclut les débats méthodologiques concernant la validité et la valeur interprétative des études littéraires computationnelles. Se distingue de la linguistique de corpus et du traitement automatique du langage naturel (TALN), qui relèvent de la linguistique et de l'informatique.

Sub-topics

Core questions

Que peut révéler l'analyse quantitative à grande échelle que la lecture attentive (close reading) ne peut pas ?
Dans quelle mesure les motifs identifiés par l'approche computationnelle dans les textes sont-ils fiables et interprétables ?
Comment la construction du corpus et le prétraitement (preprocessing) influencent-ils les résultats ?
Comment les preuves computationnelles devraient-elles s'articuler avec l'interprétation littéraire et historique ?

Key concepts

Lecture à distance (Distant reading)
Corpus
Caractéristique (Feature)
Modèle statistique
Prétraitement (Preprocessing)
Interprétation à l'échelle

Key theories

Lecture à distance (Distant reading): Moretti a proposé d'étudier la littérature à travers des motifs et des abstractions à grande échelle plutôt que par la lecture attentive (close reading) d'un petit nombre d'œuvres canoniques, recadrant ainsi l'histoire littéraire comme un problème d'échelle.
Macroanalyse: Jockers a soutenu que les méthodes numériques permettent une histoire littéraire statistique de corpus entiers, révélant l'influence et la structure stylistique invisibles au niveau des œuvres individuelles.
Modélisation du changement littéraire: Underwood a utilisé la modélisation prédictive de vastes collections pour soutenir que des catégories telles que le genre et le prestige évoluent souvent de manière graduelle et continue.

History

Ses racines se trouvent dans la construction de concordances et l'informatique appliquée aux sciences humaines (humanities computing) du milieu du XXe siècle. La lecture à distance (distant reading) de Moretti (années 2000), la Macroanalyse de Jockers (2013) et Distant Horizons d'Underwood (2019) ont consolidé les études littéraires computationnelles, tandis que la critique de Da en 2019 a aiguisé le débat sur la rigueur statistique et le rendement interprétatif.

Debates

Rigueur statistique versus valeur interprétative: Da a soutenu qu'une grande partie des travaux littéraires computationnels est statistiquement faible ou interprétativement mince ; les défenseurs affirment que ces méthodes ouvrent de nouvelles questions authentiques lorsqu'elles sont utilisées avec précaution.

Key figures

Franco Moretti
Matthew L. Jockers
Ted Underwood
Nan Z. Da

Seminal works

moretti2013
jockers2013
underwood2019
da2019

Frequently asked questions

En quoi cela diffère-t-il de la linguistique de corpus ou du TALN ?: Ce domaine partage des techniques avec la linguistique de corpus et le traitement automatique du langage naturel (TALN), mais il est motivé par des questions humanistiques — histoire littéraire, attribution d'auteur, changement culturel — plutôt que par la modélisation du langage lui-même ou la création d'applications. Les objectifs interprétatifs, et les débats qui les entourent, sont caractéristiques des humanités numériques.