Mô hình dữ liệu bán cấu trúc và tài liệu
Các mô hình dữ liệu bán cấu trúc và tài liệu biểu diễn dữ liệu dưới dạng cây hoặc đối tượng lồng nhau tự mô tả, có cấu trúc không đều — như trong XML và JSON — trong đó cấu trúc được mang theo dữ liệu thay vì được cố định bởi một lược đồ cứng nhắc.
Definition
Dữ liệu bán cấu trúc là dữ liệu có một số cấu trúc tổ chức nhưng không tuân thủ một lược đồ cố định, thường được mô hình hóa dưới dạng cây có nhãn hoặc đối tượng khóa-giá trị lồng nhau; các mô hình tài liệu lưu trữ dữ liệu đó dưới dạng các tài liệu độc lập (thường là JSON hoặc XML) thay vì dưới dạng các hàng trong các bảng cố định.
Scope
Chủ đề này bao gồm các mô hình dữ liệu nới lỏng yêu cầu quan hệ về một lược đồ thống nhất: dữ liệu bán cấu trúc dạng cây và đồ thị, XML với DTD và lược đồ của nó, và các mô hình tài liệu dựa trên JSON được sử dụng bởi các kho tài liệu. Nó đề cập đến việc lồng ghép, các trường tùy chọn và lặp lại, tính linh hoạt của lược đồ, và các ngôn ngữ truy vấn hướng đường dẫn và cây (như XPath và XQuery) hoạt động trên chúng. Nó không bao gồm kỹ thuật rộng hơn của các hệ thống NoSQL và các mô hình nhất quán, được đề cập trong lĩnh vực dữ liệu lớn và NoSQL.
Core questions
- Dữ liệu tự mô tả, linh hoạt về lược đồ khác với các bảng quan hệ cứng nhắc như thế nào?
- XML và JSON được sử dụng như thế nào để biểu diễn dữ liệu lồng nhau và không đều?
- Các lược đồ tùy chọn (DTD, XML Schema, JSON Schema) đóng vai trò gì?
- Các ngôn ngữ truy vấn đường dẫn và cây như XPath và XQuery điều hướng dữ liệu như thế nào?
- Những đánh đổi của các mô hình tài liệu so với mô hình quan hệ là gì?
Key concepts
- dữ liệu bán cấu trúc (cây/đồ thị)
- XML và DTD/XML Schema
- JSON và kho tài liệu
- các trường lồng nhau và lặp lại
- lược đồ khi đọc so với lược đồ khi ghi
- XPath và XQuery
- dữ liệu tự mô tả
- tiến hóa lược đồ
Key theories
- Dữ liệu cấu trúc cây tự mô tả
- Dữ liệu bán cấu trúc được mô hình hóa dưới dạng cây hoặc đồ thị có nhãn, trong đó cấu trúc được mã hóa cùng với các giá trị, cho phép các trường bị thiếu, tùy chọn và không đồng nhất mà không cần lược đồ được xác định trước.
- Tính linh hoạt của lược đồ so với việc thực thi lược đồ
- Các mô hình tài liệu và bán cấu trúc đánh đổi tính toàn vẹn và đảm bảo truy vấn của một lược đồ cố định để lấy tính linh hoạt và dễ dàng phát triển, tùy chọn xác thực dựa trên các lược đồ như XML Schema hoặc JSON Schema khi cần các đảm bảo mạnh hơn.
- Truy vấn dựa trên đường dẫn
- Các ngôn ngữ như XPath và XQuery chọn và biến đổi các phần của tài liệu cấu trúc cây bằng cách điều hướng các đường dẫn và mẫu, cung cấp một mô hình truy vấn phù hợp với dữ liệu lồng nhau, không đều.
Clinical relevance
Các mô hình bán cấu trúc và tài liệu là nền tảng cho việc trao đổi dữ liệu web và phát triển ứng dụng hiện đại: XML và JSON là các định dạng chủ đạo cho API, cấu hình và nhắn tin, và các cơ sở dữ liệu tài liệu lưu trữ dữ liệu linh hoạt, đang phát triển cho các hệ thống web, di động và quản lý nội dung nơi các lược đồ quan hệ cứng nhắc sẽ gây khó khăn.
History
Dữ liệu bán cấu trúc xuất hiện vào những năm 1990 để mô tả dữ liệu web và tích hợp không đồng nhất không phù hợp với các lược đồ cố định. XML trở thành tiêu chuẩn của W3C vào năm 1998 với các ngôn ngữ truy vấn liên quan là XPath và XQuery; JSON sau đó trở thành định dạng thực tế nhẹ cho các API web, và các cơ sở dữ liệu tài liệu đã phổ biến việc lưu trữ trực tiếp các tài liệu JSON, làm sống lại và mở rộng truyền thống bán cấu trúc.
Key figures
- Serge Abiteboul
- Peter Buneman
- Dan Suciu
Related topics
Seminal works
- abiteboul2000
- garciamolina2008
Frequently asked questions
- Mô hình tài liệu có giống như không có lược đồ không?
- Không hoàn toàn. Các mô hình tài liệu linh hoạt về lược đồ hơn là không có lược đồ: các tài liệu riêng lẻ mang cấu trúc riêng của chúng, và các lược đồ tùy chọn (như JSON Schema hoặc XML Schema) có thể được áp dụng để xác thực. Sự khác biệt so với mô hình quan hệ là cấu trúc không bắt buộc phải đồng nhất trên tất cả các bản ghi.
- Khi nào các mô hình tài liệu được ưu tiên hơn các bảng quan hệ?
- Các mô hình tài liệu phù hợp với dữ liệu lồng nhau tự nhiên, không đồng nhất hoặc đang phát triển nhanh chóng — chẳng hạn như hồ sơ người dùng, mục danh mục hoặc các sự kiện được ghi lại — nơi việc buộc một lược đồ bảng thống nhất sẽ gây khó khăn. Các mô hình quan hệ vẫn được ưu tiên khi dữ liệu đều đặn và mạnh mẽ, cần tính toàn vẹn đa bản ghi và các phép nối phức tạp.