Encodage et balisage de texte
Avant qu'un texte puisse être analysé, recherché ou rendu par un ordinateur, il doit être représenté sous une forme lisible par machine. L'encodage de texte est la pratique consistant à ajouter un balisage structuré aux documents afin que leurs caractéristiques — structure, langue, appareil éditorial, entités nommées — deviennent explicites et exploitables par ordinateur.
Definition
L'application systématique d'un balisage structuré et lisible par machine à un texte afin de rendre ses caractéristiques explicites, interchangeables et aptes au traitement computationnel et à l'analyse savante.
Scope
Couvre la théorie et la pratique de la représentation des textes des sciences humaines sous forme lisible par machine : la Text Encoding Initiative (TEI) et ses directives, les langages de balisage tels que XML, la modélisation de documents et la conception de schémas, les normes de métadonnées et les vocabulaires contrôlés, ainsi que l'encodage de la littérature nativement numérique et électronique. Inclut les débats fondamentaux sur la nature du texte et les conséquences de traiter les documents comme des hiérarchies ordonnées.
Sub-topics
Core questions
- Qu'est-ce qu'un texte, et quelles de ses caractéristiques l'encodage devrait-il rendre explicites ?
- Comment les normes de balisage telles que la TEI équilibrent-elles la puissance expressive et l'interopérabilité ?
- Quels choix interprétatifs sont intégrés dans toute décision d'encoder un document d'une manière plutôt que d'une autre ?
- Comment les métadonnées et les vocabulaires contrôlés devraient-ils décrire et connecter les ressources encodées ?
Key concepts
- Balisage
- Schéma
- Élément et attribut
- Définition de type de document
- Hiérarchies chevauchantes
- Interopérabilité
Key theories
- Le texte comme hiérarchie ordonnée d'objets de contenu (OHCO)
- DeRose et ses collègues ont soutenu que les textes sont mieux modélisés comme des hiérarchies imbriquées d'objets logiques tels que des chapitres, des paragraphes et des phrases, une vision qui a sous-tendu le balisage descriptif mais a également provoqué un débat sur les structures chevauchantes.
- Balisage descriptif
- L'encodage devrait décrire ce qu'est une caractéristique textuelle plutôt que la manière dont elle devrait apparaître, séparant la structure logique de la présentation afin que la même source puisse prendre en charge l'analyse, la recherche et le rendu.
- Échange via des normes communautaires
- La TEI fournit un vocabulaire partagé et extensible afin que les textes encodés puissent être échangés et réutilisés entre les projets, faisant de l'interopérabilité un objectif central du balisage en sciences humaines.
History
Le balisage de texte structuré est apparu dans l'édition et l'informatique dans les années 1960 et 1970, menant au SGML et plus tard au XML. La Text Encoding Initiative, fondée en 1987, a produit des directives communautaires pour l'encodage des textes des sciences humaines ; les débats OHCO du début des années 1990 ont clarifié ce que signifie modéliser un texte. TEI P5 et les révisions successives ont consolidé la pratique de l'encodage à travers l'édition numérique, la constitution de corpus et les projets d'archivage.
Debates
- La question de savoir si le texte est fondamentalement hiérarchique
- La thèse OHCO a été remise en question par la prévalence de structures chevauchantes, telles que des citations s'étendant sur plusieurs paragraphes, ce qui a incité à développer des modèles alternatifs et un balisage en mode 'standoff'.
Key figures
- Allen Renear
- Lou Burnard
- Steven DeRose
- C. M. Sperberg-McQueen
Related topics
Seminal works
- delittle1990
- tei2024
- renear2004
- burnard2014
Frequently asked questions
- Pourquoi ne pas simplement stocker les textes sous forme de fichiers texte brut ou de documents Word ?
- Les fichiers texte brut ou de traitement de texte mélangent le contenu et la présentation, et laissent la structure implicite. L'encodage rend explicites et lisibles par machine des caractéristiques telles que les titres, les noms et les notes éditoriales, de sorte que la même source peut être recherchée, analysée et rendue de multiples façons et partagée entre les projets.