ScholarGate
Ассистент

Языки и стандарты разметки

Разметка — это уровень кодов, который превращает поток символов в структурированный документ. Различие между дескриптивной разметкой, которая называет, чем является объект, и процедурной разметкой, которая указывает, как его напечатать, сформировало стандарты — SGML, XML и их преемников — на которых основывается кодирование в гуманитарных науках.

Найти тему в PaperMindСкороFind papers & topics
Tools & resources
Скачать слайды
Learn & explore
ВидеоСкоро

Definition

Формальные языки и общепринятые стандарты — в частности, SGML и XML — используемые для добавления структурированных, машиночитаемых кодов в документы, а также принципы, делающие такую разметку дескриптивной, проверяемой и взаимозаменяемой.

Scope

Охватывает языки и стандарты, лежащие в основе кодирования текста: историю общей и дескриптивной разметки, SGML и XML и их языки схем, а также принципы, отличающие надежную, взаимозаменяемую разметку от ориентированного на представление кодирования. Включает влияние этих стандартов на компьютерные гуманитарные науки.

Core questions

  • Что отличает дескриптивную разметку от процедурной и презентационной разметки?
  • Почему гуманитарные науки сошлись на SGML, а затем на XML?
  • Как схемы ограничивают и проверяют размеченные документы?
  • Каковы ограничения языков разметки с древовидной структурой?

Key concepts

  • SGML
  • XML
  • Дескриптивная против процедурной разметки
  • Схема и DTD
  • Корректность и валидность

Key theories

Дескриптивная разметка вместо процедурной
Кумбс, Ренеар и ДеРоуз утверждали, что разметка, называющая логическую роль текста (дескриптивная), превосходит разметку, определяющую внешний вид (процедурная), для научных исследований, поскольку она сохраняет смысл и поддерживает повторное использование.
Общее кодирование и разделение задач
Разделение логической структуры документа и его представления позволяет одному закодированному источнику обеспечивать анализ, поиск и множественные визуализации, что является принципом, унаследованным от SGML и перенесенным в XML.
Иерархическая модель документа
XML и его предшественники моделируют документы как упорядоченные деревья, что эффективно для вложенной структуры, но затруднительно для функций, которые перекрываются по всей иерархии.

History

Идеи общего кодирования конца 1960-х годов привели к GML, а затем к SGML, стандартизированному в 1986 году. Статья Кумбса, Ренеара и ДеРоуза 1987 года обосновала применение дескриптивной разметки в научных исследованиях. XML, упрощенный профиль SGML, был опубликован W3C в 1998 году и быстро стал основой для TEI P5 и большинства видов кодирования в гуманитарных науках.

Debates

Адекватность древовидной разметки
Поскольку XML навязывает единую иерархию, перекрывающиеся структуры, часто встречающиеся в реальных текстах, требуют обходных путей, что стимулирует исследования альтернативных или дополнительных моделей разметки.

Key figures

  • James H. Coombs
  • Allen Renear
  • Steven DeRose

Related topics

Seminal works

  • coombs1987
  • delittle1990

Frequently asked questions

Актуален ли XML до сих пор, учитывая новые форматы, такие как JSON?
Для документоцентричного кодирования в гуманитарных науках XML остается доминирующим, поскольку он выражает богатую, проверяемую структуру и лежит в основе TEI. JSON и другие форматы распространены для обмена данными, но традиция дескриптивной разметки по-прежнему занимает центральное место в научном представлении текста.

Methods for this concept

Related concepts