Языки и стандарты разметки
Разметка — это уровень кодов, который превращает поток символов в структурированный документ. Различие между дескриптивной разметкой, которая называет, чем является объект, и процедурной разметкой, которая указывает, как его напечатать, сформировало стандарты — SGML, XML и их преемников — на которых основывается кодирование в гуманитарных науках.
Definition
Формальные языки и общепринятые стандарты — в частности, SGML и XML — используемые для добавления структурированных, машиночитаемых кодов в документы, а также принципы, делающие такую разметку дескриптивной, проверяемой и взаимозаменяемой.
Scope
Охватывает языки и стандарты, лежащие в основе кодирования текста: историю общей и дескриптивной разметки, SGML и XML и их языки схем, а также принципы, отличающие надежную, взаимозаменяемую разметку от ориентированного на представление кодирования. Включает влияние этих стандартов на компьютерные гуманитарные науки.
Core questions
- Что отличает дескриптивную разметку от процедурной и презентационной разметки?
- Почему гуманитарные науки сошлись на SGML, а затем на XML?
- Как схемы ограничивают и проверяют размеченные документы?
- Каковы ограничения языков разметки с древовидной структурой?
Key concepts
- SGML
- XML
- Дескриптивная против процедурной разметки
- Схема и DTD
- Корректность и валидность
Key theories
- Дескриптивная разметка вместо процедурной
- Кумбс, Ренеар и ДеРоуз утверждали, что разметка, называющая логическую роль текста (дескриптивная), превосходит разметку, определяющую внешний вид (процедурная), для научных исследований, поскольку она сохраняет смысл и поддерживает повторное использование.
- Общее кодирование и разделение задач
- Разделение логической структуры документа и его представления позволяет одному закодированному источнику обеспечивать анализ, поиск и множественные визуализации, что является принципом, унаследованным от SGML и перенесенным в XML.
- Иерархическая модель документа
- XML и его предшественники моделируют документы как упорядоченные деревья, что эффективно для вложенной структуры, но затруднительно для функций, которые перекрываются по всей иерархии.
History
Идеи общего кодирования конца 1960-х годов привели к GML, а затем к SGML, стандартизированному в 1986 году. Статья Кумбса, Ренеара и ДеРоуза 1987 года обосновала применение дескриптивной разметки в научных исследованиях. XML, упрощенный профиль SGML, был опубликован W3C в 1998 году и быстро стал основой для TEI P5 и большинства видов кодирования в гуманитарных науках.
Debates
- Адекватность древовидной разметки
- Поскольку XML навязывает единую иерархию, перекрывающиеся структуры, часто встречающиеся в реальных текстах, требуют обходных путей, что стимулирует исследования альтернативных или дополнительных моделей разметки.
Key figures
- James H. Coombs
- Allen Renear
- Steven DeRose
Related topics
Seminal works
- coombs1987
- delittle1990
Frequently asked questions
- Актуален ли XML до сих пор, учитывая новые форматы, такие как JSON?
- Для документоцентричного кодирования в гуманитарных науках XML остается доминирующим, поскольку он выражает богатую, проверяемую структуру и лежит в основе TEI. JSON и другие форматы распространены для обмена данными, но традиция дескриптивной разметки по-прежнему занимает центральное место в научном представлении текста.