Stylométrie et attribution d'auteur
Les écrivains laissent des empreintes statistiques. Les fréquences de mots courts et inconscients — tels que « the », « of » et « and » — varient peu au sein de l'œuvre d'un même auteur, mais diffèrent entre auteurs. La stylométrie exploite cette particularité pour résoudre les questions d'attribution d'auteur et pour étudier le style de manière quantitative.
Definition
L'analyse statistique des caractéristiques mesurables du style d'écriture pour caractériser les auteurs et attribuer des textes dont l'auteur est incertain ou contesté.
Scope
Couvre la mesure quantitative du style littéraire et son utilisation pour attribuer des textes à des auteurs : le choix des caractéristiques stylistiques, les mesures de distance et de classification telles que le Delta de Burrows, et la validation des attributions. Inclut l'histoire du domaine, des Federalist Papers aux méthodes modernes d'apprentissage automatique, ainsi que ses applications forensiques.
Core questions
- Quelles caractéristiques textuelles capturent le mieux le style distinctif d'un auteur ?
- Comment les attributions peuvent-elles être testées et validées ?
- Pourquoi les fréquences des mots fonctionnels sont-elles si efficaces pour l'attribution ?
- Quelles sont les limites de la stylométrie à travers les genres, les périodes et la traduction ?
Key concepts
- Mots fonctionnels
- Delta de Burrows
- Sélection de caractéristiques
- Classification
- Validation croisée
Key theories
- La fréquence des mots fonctionnels comme signal d'auteur
- Mosteller et Wallace ont montré que les fréquences des mots fonctionnels courants pouvaient discriminer les auteurs, en utilisant l'inférence bayésienne pour attribuer les Federalist Papers contestés.
- Le Delta de Burrows
- Burrows a introduit le Delta, une mesure de distance basée sur les mots les plus fréquents, qui est devenue une méthode standard et robuste pour classer les auteurs candidats.
- L'attribution moderne comme classification
- Stamatatos a examiné comment l'attribution d'auteur est formulée comme un problème de classification de texte, en comparant des ensembles de caractéristiques et des méthodes d'apprentissage automatique.
History
L'étude quantitative de l'attribution d'auteur remonte au XIXe siècle, mais l'étude de Mosteller et Wallace (1964) sur les Federalist Papers a établi l'approche statistique moderne. Le Delta de Burrows (2002) a fourni au domaine une mesure largement adoptée, et des synthèses comme celle de Stamatatos (2009) ont mis en évidence le passage à la classification par apprentissage automatique et à l'utilisation forensique.
Debates
- Fiabilité et confiance des attributions
- Les méthodes stylométriques peuvent être puissantes mais sont sensibles à la taille du corpus, au genre et au prétraitement, ce qui soulève des questions quant au degré de confiance que méritent les attributions, en particulier dans les contextes forensiques.
Key figures
- Frederick Mosteller
- David Wallace
- John Burrows
- Efstathios Stamatatos
Related topics
Seminal works
- mosteller1964
- burrows2002
- stamatatos2009
Frequently asked questions
- Pourquoi se concentrer sur de petits mots comme « the » plutôt que sur un vocabulaire distinctif ?
- Le vocabulaire distinctif reflète souvent le sujet d'un texte plutôt que son auteur. Les mots fonctionnels courants sont utilisés inconsciemment et à des fréquences stables au sein de l'écriture d'un auteur, mais diffèrent entre auteurs, ce qui en fait un signal de style fiable et indépendant du sujet.