标记语言与标准
标记是把字符流转换为结构化文档的代码层。描述性标记(指明事物是什么)与过程性标记(指明如何打印)之间的区别,塑造了人文科学编码所依赖的标准——SGML、XML及其后续版本。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
用于向文档添加结构化、机器可读代码的形式语言和社区标准(特别是SGML和XML),以及使此类标记具有描述性、可验证性和可互换性的原则。
Scope
涵盖文本编码所依据的语言和标准:通用和描述性标记的历史、SGML和XML及其模式语言,以及区分健壮、可互换标记与面向呈现的编码的原则。包括这些标准对人文计算的影响。
Core questions
- 描述性标记与过程性及呈现性标记有何区别?
- 人文科学为何趋向于SGML,然后是XML?
- 模式如何约束和验证标记文档?
- 树状结构标记语言的局限性是什么?
Key concepts
- SGML
- XML
- 描述性标记与过程性标记
- 模式与DTD
- 格式良好性与有效性
Key theories
- 描述性标记优于过程性标记
- Coombs、Renear和DeRose认为,命名文本逻辑角色(描述性)的标记对于学术研究优于指定外观(过程性)的标记,因为它能保留意义并支持重用。
- 通用编码与关注点分离
- 将文档的逻辑结构与其呈现分离,使得单一编码源可以驱动分析、搜索和多种渲染,这是从SGML继承并延续到XML的原则。
- 分层文档模型
- XML及其前身将文档建模为有序树,这对于嵌套结构非常强大,但对于跨层级重叠的特性则显得力不从心。
History
1960年代后期的通用编码思想促成了GML,随后是SGML,并于1986年标准化。1987年Coombs-Renear-DeRose的论文提出了学术研究中描述性标记的必要性。XML作为SGML的简化版本,由W3C于1998年发布,并迅速成为TEI P5和大多数人文科学编码的基础。
Debates
- 基于树的标记的充分性
- 由于XML强制执行单一层级结构,真实文本中常见的重叠结构需要变通方法,这推动了对替代或补充标记模型的研究。
Key figures
- James H. Coombs
- Allen Renear
- Steven DeRose
Related topics
Seminal works
- coombs1987
- delittle1990
Frequently asked questions
- 鉴于JSON等较新的格式,XML是否仍然相关?
- 对于以文档为中心的人文科学编码,XML仍然占据主导地位,因为它能够表达丰富、可验证的结构,并且是TEI的基础。JSON和其他格式常用于数据交换,但描述性标记传统仍然是学术文本表示的核心。