ScholarGate
助手

半结构化和文档模型

半结构化和文档数据模型将数据表示为自描述的、不规则结构的树或嵌套对象——如XML和JSON——其中结构与数据一起携带,而不是由严格的模式固定。

用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
下载幻灯片
Learn & explore
视频即将推出

Definition

半结构化数据是指具有一定组织结构但又不符合固定模式的数据,通常建模为带标签的树或嵌套的键值对象;文档模型将此类数据存储为自包含的文档(通常是JSON或XML),而不是固定表中的行。

Scope

本主题涵盖放宽统一模式关系要求的数据模型:树形和图形的半结构化数据、带有DTD和模式的XML,以及文档存储使用的基于JSON的文档模型。它涉及嵌套、可选和重复字段、模式灵活性,以及在其上操作的路径和树形查询语言(如XPath和XQuery)。它不包括NoSQL系统和一致性模型的更广泛工程,这些内容在大数据和NoSQL领域中有所涵盖。

Core questions

  • 自描述、模式灵活的数据与严格的关系表有何不同?
  • XML和JSON如何用于表示嵌套和不规则数据?
  • 可选模式(DTD、XML Schema、JSON Schema)扮演什么角色?
  • XPath和XQuery等路径和树查询语言如何导航数据?
  • 文档模型与关系模型之间的权衡是什么?

Key concepts

  • 半结构化(树/图)数据
  • XML和DTD/XML Schema
  • JSON和文档存储
  • 嵌套和重复字段
  • 读时模式与写时模式
  • XPath和XQuery
  • 自描述数据
  • 模式演进

Key theories

自描述树结构数据
半结构化数据被建模为带标签的树或图,其中结构与值一起编码,允许缺失、可选和异构字段,而无需预定义模式。
模式灵活性与模式强制
文档和半结构化模型以牺牲固定模式的完整性和查询保证为代价,换取灵活性和易于演进,当需要更强的保证时,可以选择根据XML Schema或JSON Schema等模式进行验证。
基于路径的查询
XPath和XQuery等语言通过导航路径和模式来选择和转换树结构文档的部分,提供了一种适用于嵌套、不规则数据的查询模型。

Clinical relevance

半结构化和文档模型是网络数据交换和现代应用开发的基础:XML和JSON是API、配置和消息传递的主要格式,文档数据库为网络、移动和内容管理系统存储灵活、不断演进的数据,而这些系统中严格的关系模式会显得笨拙。

History

半结构化数据出现于20世纪90年代,用于描述不适合固定模式的异构网络和集成数据。XML于1998年成为W3C标准,并带有相关的查询语言XPath和XQuery;JSON后来成为网络API的轻量级事实标准格式,文档数据库推广了直接存储JSON文档,从而复兴并扩展了半结构化传统。

Key figures

  • Serge Abiteboul
  • Peter Buneman
  • Dan Suciu

Related topics

Seminal works

  • abiteboul2000
  • garciamolina2008

Frequently asked questions

文档模型是否等同于没有模式?
不完全是。文档模型是模式灵活的,而不是无模式的:单个文档携带自己的结构,并且可以应用可选模式(如JSON Schema或XML Schema)进行验证。与关系模型的区别在于,结构不要求在所有记录中都是统一的。
何时文档模型优于关系表?
文档模型适用于自然嵌套、异构或快速演进的数据——例如用户配置文件、目录条目或日志事件——在这些情况下,强制统一的表模式会很笨拙。当数据规则且需要强大的多记录完整性和复杂连接时,关系模型仍然更优。

Methods for this concept

Related concepts