ScholarGate
Assistant

Langages et normes de balisage

Le balisage est la couche de codes qui transforme un flux de caractères en un document structuré. La distinction entre le balisage descriptif, qui nomme ce qu'est une chose, et le balisage procédural, qui indique comment l'imprimer, a façonné les normes — SGML, XML et leurs successeurs — sur lesquelles repose l'encodage en sciences humaines.

Trouver un sujet avec PaperMindBientôtFind papers & topics
Tools & resources
Télécharger les diapositives
Learn & explore
VidéoBientôt

Definition

Les langages formels et les normes communautaires — notamment SGML et XML — utilisés pour ajouter des codes structurés et lisibles par machine aux documents, ainsi que les principes qui rendent un tel balisage descriptif, validable et interchangeable.

Scope

Couvre les langages et les normes qui sous-tendent l'encodage de texte : l'histoire du balisage générique et descriptif, SGML et XML et leurs langages de schémas, ainsi que les principes qui distinguent un balisage robuste et interchangeable d'un codage orienté présentation. Inclut l'influence de ces normes sur l'informatique en sciences humaines.

Core questions

  • Qu'est-ce qui distingue le balisage descriptif du balisage procédural et de présentation ?
  • Pourquoi les sciences humaines ont-elles convergé vers SGML, puis XML ?
  • Comment les schémas contraignent-ils et valident-ils les documents balisés ?
  • Quelles sont les limites des langages de balisage structurés en arbre ?

Key concepts

  • SGML
  • XML
  • Balisage descriptif vs procédural
  • Schéma et DTD
  • Bonne formation et validité

Key theories

Balisage descriptif plutôt que procédural
Coombs, Renear et DeRose ont soutenu que le balisage nommant le rôle logique du texte (descriptif) est supérieur pour la recherche au balisage spécifiant l'apparence (procédural), car il préserve le sens et soutient la réutilisation.
Codage générique et séparation des préoccupations
Séparer la structure logique d'un document de sa présentation permet à une source encodée unique de piloter l'analyse, la recherche et de multiples rendus, un principe hérité de SGML et repris dans XML.
Modèle de document hiérarchique
XML et ses prédécesseurs modélisent les documents comme des arbres ordonnés, ce qui est puissant pour les structures imbriquées mais mis à l'épreuve par des caractéristiques qui se chevauchent à travers la hiérarchie.

History

Les idées de codage générique de la fin des années 1960 ont conduit à GML, puis à SGML, normalisé en 1986. L'article de Coombs-Renear-DeRose de 1987 a plaidé en faveur du balisage descriptif dans la recherche. XML, un profil simplifié de SGML, a été publié par le W3C en 1998 et est rapidement devenu la base de TEI P5 et de la plupart des encodages en sciences humaines.

Debates

L'adéquation du balisage basé sur des arbres
Étant donné que XML impose une hiérarchie unique, les structures qui se chevauchent, courantes dans les textes réels, nécessitent des solutions de contournement, alimentant la recherche sur des modèles de balisage alternatifs ou supplémentaires.

Key figures

  • James H. Coombs
  • Allen Renear
  • Steven DeRose

Related topics

Seminal works

  • coombs1987
  • delittle1990

Frequently asked questions

XML est-il toujours pertinent compte tenu des formats plus récents comme JSON ?
Pour l'encodage en sciences humaines centré sur les documents, XML reste dominant car il exprime une structure riche et validable et sous-tend la TEI. JSON et d'autres formats sont courants pour l'échange de données, mais la tradition du balisage descriptif reste centrale pour la représentation textuelle savante.

Methods for this concept

Related concepts