Auszeichnungssprachen und Standards
Markup ist die Schicht von Codes, die einen Zeichenstrom in ein strukturiertes Dokument verwandelt. Die Unterscheidung zwischen deskriptivem Markup, das benennt, was ein Ding ist, und prozeduralem Markup, das angibt, wie es gedruckt werden soll, prägte die Standards – SGML, XML und ihre Nachfolger –, auf denen die geisteswissenschaftliche Kodierung beruht.
Definition
Die formalen Sprachen und Gemeinschaftsstandards – insbesondere SGML und XML –, die verwendet werden, um Dokumenten strukturierte, maschinenlesbare Codes hinzuzufügen, zusammen mit den Prinzipien, die ein solches Markup deskriptiv, validierbar und austauschbar machen.
Scope
Umfasst die Sprachen und Standards, die der Textkodierung zugrunde liegen: die Geschichte des generischen und deskriptiven Markups, SGML und XML und ihre Schemasprachen sowie die Prinzipien, die robustes, austauschbares Markup von präsentationsorientierter Kodierung unterscheiden. Beinhaltet den Einfluss dieser Standards auf die Digital Humanities.
Core questions
- Was unterscheidet deskriptives Markup von prozeduralem und präsentationsorientiertem Markup?
- Warum konvergierten die Geisteswissenschaften auf SGML und dann auf XML?
- Wie schränken Schemas markierte Dokumente ein und validieren sie?
- Was sind die Grenzen baumstrukturierter Auszeichnungssprachen?
Key concepts
- SGML
- XML
- Deskriptives vs. prozedurales Markup
- Schema und DTD
- Wohlgeformtheit und Gültigkeit
Key theories
- Deskriptives gegenüber prozeduralem Markup
- Coombs, Renear und DeRose argumentierten, dass Markup, das die logische Rolle von Text benennt (deskriptiv), für die Wissenschaft dem Markup, das das Erscheinungsbild spezifiziert (prozedural), überlegen ist, da es die Bedeutung bewahrt und die Wiederverwendung unterstützt.
- Generische Kodierung und Trennung der Belange
- Die Trennung der logischen Struktur eines Dokuments von seiner Präsentation ermöglicht es einer einzigen kodierten Quelle, Analyse, Suche und mehrere Darstellungen zu steuern, ein Prinzip, das von SGML geerbt und in XML übernommen wurde.
- Hierarchisches Dokumentenmodell
- XML und seine Vorgänger modellieren Dokumente als geordnete Bäume, was für verschachtelte Strukturen leistungsfähig ist, aber durch Merkmale, die sich über die Hierarchie überlappen, an seine Grenzen stößt.
History
Generische Kodierungsideen der späten 1960er Jahre führten zu GML und dann zu SGML, das 1986 standardisiert wurde. Das Papier von Coombs-Renear-DeRose aus dem Jahr 1987 plädierte für deskriptives Markup in der Wissenschaft. XML, ein optimiertes SGML-Profil, wurde 1998 vom W3C veröffentlicht und wurde schnell zur Grundlage für TEI P5 und die meisten geisteswissenschaftlichen Kodierungen.
Debates
- Die Angemessenheit baumbasierter Auszeichnungssprachen
- Da XML eine einzige Hierarchie erzwingt, erfordern überlappende Strukturen, die in realen Texten häufig vorkommen, Umgehungslösungen, was die Forschung an alternativen oder ergänzenden Markup-Modellen vorantreibt.
Key figures
- James H. Coombs
- Allen Renear
- Steven DeRose
Related topics
Seminal works
- coombs1987
- delittle1990
Frequently asked questions
- Ist XML angesichts neuerer Formate wie JSON noch relevant?
- Für die dokumentenzentrierte geisteswissenschaftliche Kodierung bleibt XML dominant, da es eine reichhaltige, validierbare Struktur ausdrückt und der TEI zugrunde liegt. JSON und andere Formate sind für den Datenaustausch üblich, aber die Tradition des deskriptiven Markups ist nach wie vor zentral für die wissenschaftliche Textrepräsentation.