Textkodierung und Markup
Bevor ein Text von einem Computer analysiert, durchsucht oder gerendert werden kann, muss er in einer maschinenlesbaren Form vorliegen. Textkodierung ist die Praxis, Dokumenten eine strukturierte Auszeichnung (Markup) hinzuzufügen, damit deren Merkmale – Struktur, Sprache, editorischer Apparat, benannte Entitäten – explizit und computergestützt verarbeitbar werden.
Definition
Die systematische Anwendung von strukturiertem, maschinenlesbarem Markup auf einen Text, um dessen Merkmale explizit, austauschbar und für die computergestützte Verarbeitung sowie die wissenschaftliche Analyse zugänglich zu machen.
Scope
Umfasst die Theorie und Praxis der Darstellung geisteswissenschaftlicher Texte in maschinenlesbarer Form: die Text Encoding Initiative (TEI) und ihre Richtlinien, Auszeichnungssprachen wie XML, Dokumentenmodellierung und Schema-Design, Metadatenstandards und kontrollierte Vokabulare sowie die Kodierung von born-digitaler und elektronischer Literatur. Beinhaltet grundlegende Debatten über die Natur von Text und die Konsequenzen der Behandlung von Dokumenten als geordnete Hierarchien.
Sub-topics
Core questions
- Was ist ein Text, und welche seiner Merkmale sollte die Kodierung explizit machen?
- Wie balancieren Markup-Standards wie TEI Ausdruckskraft und Interoperabilität aus?
- Welche interpretativen Entscheidungen sind in jeder Entscheidung zur Kodierung eines Dokuments auf eine bestimmte Weise impliziert?
- Wie sollten Metadaten und kontrollierte Vokabulare kodierte Ressourcen beschreiben und miteinander verbinden?
Key concepts
- Markup
- Schema
- Element und Attribut
- Dokumenttypdefinition
- Überlappende Hierarchien
- Interoperabilität
Key theories
- Text als geordnete Hierarchie von Inhaltsobjekten (OHCO)
- DeRose und Kollegen argumentierten, dass Texte am besten als verschachtelte Hierarchien logischer Objekte wie Kapitel, Absätze und Sätze modelliert werden, eine Ansicht, die deskriptives Markup untermauerte, aber auch Debatten über überlappende Strukturen auslöste.
- Deskriptives Markup
- Die Kodierung sollte beschreiben, was ein Textmerkmal ist, anstatt wie es erscheinen soll, wodurch die logische Struktur von der Präsentation getrennt wird, sodass dieselbe Quelle Analyse, Suche und Rendering unterstützen kann.
- Austausch durch Community-Standards
- Die TEI bietet ein gemeinsames, erweiterbares Vokabular, sodass kodierte Texte projektübergreifend ausgetauscht und wiederverwendet werden können, wodurch Interoperabilität zu einem Kernziel des geisteswissenschaftlichen Markups wird.
History
Strukturiertes Text-Markup entstand in den 1960er und 1970er Jahren aus dem Verlagswesen und der Informatik und führte zu SGML und später XML. Die 1987 gegründete Text Encoding Initiative erstellte Community-Richtlinien für die Kodierung geisteswissenschaftlicher Texte; die OHCO-Debatten der frühen 1990er Jahre klärten, was es bedeutet, einen Text zu modellieren. TEI P5 und nachfolgende Revisionen konsolidierten die Kodierungspraxis in digitalen Editionen, Korpusaufbau und Archivprojekten.
Debates
- Ob Text fundamental hierarchisch ist
- Die OHCO-These wurde durch die Prävalenz überlappender Strukturen, wie z.B. Zitate, die Absatzgrenzen überschreiten, in Frage gestellt, was zu alternativen Modellen und Standoff-Markup führte.
Key figures
- Allen Renear
- Lou Burnard
- Steven DeRose
- C. M. Sperberg-McQueen
Related topics
Seminal works
- delittle1990
- tei2024
- renear2004
- burnard2014
Frequently asked questions
- Warum Texte nicht einfach als einfache Dateien oder Word-Dokumente speichern?
- Einfache Dateien oder Textverarbeitungsdokumente vermischen Inhalt mit Präsentation und lassen die Struktur implizit. Die Kodierung macht Merkmale wie Überschriften, Namen und editorische Anmerkungen explizit und maschinenlesbar, sodass dieselbe Quelle auf vielfältige Weise durchsucht, analysiert und gerendert sowie projektübergreifend geteilt werden kann.