ScholarGate
ผู้ช่วย

แบบจำลองข้อมูลกึ่งโครงสร้างและแบบจำลองเอกสาร

แบบจำลองข้อมูลกึ่งโครงสร้างและแบบจำลองเอกสารนำเสนอข้อมูลในลักษณะที่อธิบายตัวเองได้ มีโครงสร้างที่ไม่สม่ำเสมอเป็นแบบต้นไม้หรือวัตถุซ้อนกัน — เช่นเดียวกับใน XML และ JSON — โดยที่โครงสร้างจะถูกนำไปพร้อมกับข้อมูล แทนที่จะถูกกำหนดโดยโครงสร้างที่ตายตัว

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics
Tools & resources
ดาวน์โหลดสไลด์
Learn & explore
วิดีโอเร็ว ๆ นี้

Definition

ข้อมูลกึ่งโครงสร้างคือข้อมูลที่มีโครงสร้างองค์กรบางอย่างแต่ไม่เป็นไปตามโครงสร้างที่ตายตัว โดยทั่วไปจะจำลองเป็นต้นไม้ที่มีป้ายกำกับหรือวัตถุคีย์-ค่าที่ซ้อนกัน; แบบจำลองเอกสารจะจัดเก็บข้อมูลดังกล่าวเป็นเอกสารที่สมบูรณ์ในตัวเอง (โดยทั่วไปคือ JSON หรือ XML) แทนที่จะเป็นแถวในตารางที่ตายตัว

Scope

หัวข้อนี้ครอบคลุมแบบจำลองข้อมูลที่ผ่อนคลายข้อกำหนดเชิงสัมพันธ์ของโครงสร้างข้อมูลที่สม่ำเสมอ: ข้อมูลกึ่งโครงสร้างรูปต้นไม้และกราฟ, XML พร้อม DTDs และ schemas, และแบบจำลองเอกสารที่ใช้ JSON ซึ่งใช้โดยที่เก็บเอกสาร โดยจะกล่าวถึงการซ้อนกัน, ฟิลด์ทางเลือกและฟิลด์ที่ซ้ำกัน, ความยืดหยุ่นของโครงสร้างข้อมูล, และภาษาคิวรีที่เน้นเส้นทางและต้นไม้ (เช่น XPath และ XQuery) ที่ทำงานกับข้อมูลเหล่านี้ ไม่รวมถึงวิศวกรรมที่กว้างขึ้นของระบบ NoSQL และแบบจำลองความสอดคล้อง ซึ่งครอบคลุมในส่วนของข้อมูลขนาดใหญ่และ NoSQL

Core questions

  • ข้อมูลที่อธิบายตัวเองได้และโครงสร้างที่ยืดหยุ่นแตกต่างจากตารางเชิงสัมพันธ์ที่ตายตัวอย่างไร?
  • XML และ JSON ถูกนำมาใช้เพื่อแสดงข้อมูลที่ซ้อนกันและไม่สม่ำเสมออย่างไร?
  • โครงสร้างข้อมูลทางเลือก (DTDs, XML Schema, JSON Schema) มีบทบาทอย่างไร?
  • ภาษาคิวรีแบบเส้นทางและแบบต้นไม้ เช่น XPath และ XQuery นำทางข้อมูลอย่างไร?
  • ข้อดีข้อเสียของแบบจำลองเอกสารเทียบกับแบบจำลองเชิงสัมพันธ์คืออะไร?

Key concepts

  • ข้อมูลกึ่งโครงสร้าง (ต้นไม้/กราฟ)
  • XML และ DTD/XML Schema
  • JSON และที่เก็บเอกสาร
  • ฟิลด์ที่ซ้อนกันและซ้ำกัน
  • schema-on-read เทียบกับ schema-on-write
  • XPath และ XQuery
  • ข้อมูลที่อธิบายตัวเองได้
  • วิวัฒนาการของโครงสร้างข้อมูล

Key theories

ข้อมูลโครงสร้างต้นไม้ที่อธิบายตัวเองได้
ข้อมูลกึ่งโครงสร้างถูกจำลองเป็นต้นไม้หรือกราฟที่มีป้ายกำกับ ซึ่งโครงสร้างถูกเข้ารหัสควบคู่ไปกับค่า ทำให้สามารถมีฟิลด์ที่ขาดหายไป, เป็นทางเลือก และไม่เป็นเนื้อเดียวกันได้โดยไม่ต้องมีโครงสร้างที่กำหนดไว้ล่วงหน้า
ความยืดหยุ่นของโครงสร้างข้อมูลเทียบกับการบังคับใช้โครงสร้างข้อมูล
แบบจำลองเอกสารและแบบจำลองกึ่งโครงสร้างแลกเปลี่ยนความสมบูรณ์และการรับประกันการคิวรีของโครงสร้างข้อมูลที่ตายตัวกับความยืดหยุ่นและความง่ายในการพัฒนา โดยอาจมีการตรวจสอบความถูกต้องกับโครงสร้างข้อมูล เช่น XML Schema หรือ JSON Schema เมื่อต้องการการรับประกันที่แข็งแกร่งขึ้น
การคิวรีแบบเส้นทาง
ภาษาเช่น XPath และ XQuery เลือกและแปลงส่วนต่างๆ ของเอกสารโครงสร้างต้นไม้โดยการนำทางเส้นทางและรูปแบบ ซึ่งให้แบบจำลองการคิวรีที่เหมาะสมกับข้อมูลที่ซ้อนกันและไม่สม่ำเสมอ

Clinical relevance

แบบจำลองกึ่งโครงสร้างและแบบจำลองเอกสารเป็นรากฐานของการแลกเปลี่ยนข้อมูลบนเว็บและการพัฒนาแอปพลิเคชันสมัยใหม่: XML และ JSON เป็นรูปแบบที่โดดเด่นสำหรับ API, การกำหนดค่า และการส่งข้อความ และฐานข้อมูลเอกสารจัดเก็บข้อมูลที่ยืดหยุ่นและเปลี่ยนแปลงได้สำหรับระบบเว็บ, มือถือ และการจัดการเนื้อหา ซึ่งโครงสร้างเชิงสัมพันธ์ที่ตายตัวจะยุ่งยาก

History

ข้อมูลกึ่งโครงสร้างเกิดขึ้นในช่วงทศวรรษ 1990 เพื่ออธิบายข้อมูลเว็บและข้อมูลการรวมระบบที่ไม่เป็นเนื้อเดียวกันซึ่งไม่เข้ากับโครงสร้างที่ตายตัว XML กลายเป็นมาตรฐาน W3C ในปี 1998 พร้อมกับภาษาคิวรีที่เกี่ยวข้อง XPath และ XQuery; JSON ต่อมากลายเป็นรูปแบบมาตรฐานโดยพฤตินัยที่มีน้ำหนักเบาสำหรับเว็บ API และฐานข้อมูลเอกสารได้รับความนิยมในการจัดเก็บเอกสาร JSON โดยตรง ซึ่งเป็นการฟื้นฟูและขยายประเพณีของข้อมูลกึ่งโครงสร้าง

Key figures

  • Serge Abiteboul
  • Peter Buneman
  • Dan Suciu

Related topics

Seminal works

  • abiteboul2000
  • garciamolina2008

Frequently asked questions

แบบจำลองเอกสารเหมือนกับการไม่มีโครงสร้างข้อมูลหรือไม่?
ไม่เชิง แบบจำลองเอกสารมีความยืดหยุ่นในโครงสร้างข้อมูลมากกว่าที่จะไม่มีโครงสร้างข้อมูลเลย: เอกสารแต่ละฉบับมีโครงสร้างของตัวเอง และโครงสร้างข้อมูลทางเลือก (เช่น JSON Schema หรือ XML Schema) สามารถนำมาใช้เพื่อการตรวจสอบความถูกต้องได้ ความแตกต่างจากแบบจำลองเชิงสัมพันธ์คือโครงสร้างไม่จำเป็นต้องสม่ำเสมอในทุกระเบียน
เมื่อใดที่แบบจำลองเอกสารดีกว่าตารางเชิงสัมพันธ์?
แบบจำลองเอกสารเหมาะกับข้อมูลที่มีการซ้อนกันตามธรรมชาติ, ไม่เป็นเนื้อเดียวกัน หรือมีการเปลี่ยนแปลงอย่างรวดเร็ว — เช่น โปรไฟล์ผู้ใช้, รายการแคตตาล็อก หรือเหตุการณ์ที่บันทึกไว้ — ซึ่งการบังคับใช้โครงสร้างตารางที่สม่ำเสมอจะทำได้ยาก แบบจำลองเชิงสัมพันธ์ยังคงดีกว่าเมื่อข้อมูลเป็นระเบียบและต้องการความสมบูรณ์ของข้อมูลหลายระเบียนที่แข็งแกร่งและการเชื่อมโยงที่ซับซ้อน

Methods for this concept

Related concepts