ScholarGate
助手

标记语言与标准

标记是把字符流转换为结构化文档的代码层。描述性标记(指明事物是什么)与过程性标记(指明如何打印)之间的区别,塑造了人文科学编码所依赖的标准——SGML、XML及其后续版本。

用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
下载幻灯片
Learn & explore
视频即将推出

Definition

用于向文档添加结构化、机器可读代码的形式语言和社区标准(特别是SGML和XML),以及使此类标记具有描述性、可验证性和可互换性的原则。

Scope

涵盖文本编码所依据的语言和标准:通用和描述性标记的历史、SGML和XML及其模式语言,以及区分健壮、可互换标记与面向呈现的编码的原则。包括这些标准对人文计算的影响。

Core questions

  • 描述性标记与过程性及呈现性标记有何区别?
  • 人文科学为何趋向于SGML,然后是XML?
  • 模式如何约束和验证标记文档?
  • 树状结构标记语言的局限性是什么?

Key concepts

  • SGML
  • XML
  • 描述性标记与过程性标记
  • 模式与DTD
  • 格式良好性与有效性

Key theories

描述性标记优于过程性标记
Coombs、Renear和DeRose认为,命名文本逻辑角色(描述性)的标记对于学术研究优于指定外观(过程性)的标记,因为它能保留意义并支持重用。
通用编码与关注点分离
将文档的逻辑结构与其呈现分离,使得单一编码源可以驱动分析、搜索和多种渲染,这是从SGML继承并延续到XML的原则。
分层文档模型
XML及其前身将文档建模为有序树,这对于嵌套结构非常强大,但对于跨层级重叠的特性则显得力不从心。

History

1960年代后期的通用编码思想促成了GML,随后是SGML,并于1986年标准化。1987年Coombs-Renear-DeRose的论文提出了学术研究中描述性标记的必要性。XML作为SGML的简化版本,由W3C于1998年发布,并迅速成为TEI P5和大多数人文科学编码的基础。

Debates

基于树的标记的充分性
由于XML强制执行单一层级结构,真实文本中常见的重叠结构需要变通方法,这推动了对替代或补充标记模型的研究。

Key figures

  • James H. Coombs
  • Allen Renear
  • Steven DeRose

Related topics

Seminal works

  • coombs1987
  • delittle1990

Frequently asked questions

鉴于JSON等较新的格式,XML是否仍然相关?
对于以文档为中心的人文科学编码,XML仍然占据主导地位,因为它能够表达丰富、可验证的结构,并且是TEI的基础。JSON和其他格式常用于数据交换,但描述性标记传统仍然是学术文本表示的核心。

Methods for this concept

Related concepts