ScholarGate
دستیار

مدل‌های نیمه‌ساختاریافته و سندی

مدل‌های داده نیمه‌ساختاریافته و سندی، داده‌ها را به صورت درختان یا اشیاء تودرتوی خودتوصیف‌گر و با ساختار نامنظم نمایش می‌دهند — مانند XML و JSON — که در آن‌ها ساختار همراه با داده حمل می‌شود، نه اینکه توسط یک طرح‌واره (schema) صلب ثابت شده باشد.

یافتن موضوع با PaperMindبه‌زودیFind papers & topics
Tools & resources
دریافت اسلایدها
Learn & explore
ویدیوبه‌زودی

Definition

داده‌های نیمه‌ساختاریافته، داده‌هایی هستند که دارای ساختار سازمانی مشخصی هستند اما با یک طرح‌واره ثابت مطابقت ندارند، و معمولاً به صورت درختان برچسب‌دار یا اشیاء کلید-مقدار تودرتو مدل‌سازی می‌شوند؛ مدل‌های سندی چنین داده‌هایی را به عنوان اسناد مستقل (معمولاً JSON یا XML) ذخیره می‌کنند، نه به عنوان ردیف‌هایی در جداول ثابت.

Scope

این موضوع مدل‌های داده‌ای را پوشش می‌دهد که الزامات رابطه‌ای یک طرح‌واره یکنواخت را کاهش می‌دهند: داده‌های نیمه‌ساختاریافته درختی و گرافی، XML با DTDها و طرح‌واره‌های خود، و مدل‌های سندی مبتنی بر JSON که توسط ذخیره‌سازهای سندی استفاده می‌شوند. این موضوع به تودرتویی، فیلدهای اختیاری و تکراری، انعطاف‌پذیری طرح‌واره، و زبان‌های پرس‌وجوی مسیر-محور و درخت-محور (مانند XPath و XQuery) که بر روی آن‌ها عمل می‌کنند، می‌پردازد. این موضوع مهندسی گسترده‌تر سیستم‌های NoSQL و مدل‌های سازگاری را شامل نمی‌شود، که در حوزه داده‌های بزرگ و NoSQL پوشش داده شده‌اند.

Core questions

  • داده‌های خودتوصیف‌گر و با طرح‌واره انعطاف‌پذیر چه تفاوتی با جداول رابطه‌ای صلب دارند؟
  • XML و JSON چگونه برای نمایش داده‌های تودرتو و نامنظم استفاده می‌شوند؟
  • طرح‌واره‌های اختیاری (DTDs، XML Schema، JSON Schema) چه نقشی ایفا می‌کنند؟
  • زبان‌های پرس‌وجوی مسیر و درخت مانند XPath و XQuery چگونه در داده‌ها پیمایش می‌کنند؟
  • مزایا و معایب مدل‌های سندی در مقایسه با مدل رابطه‌ای چیست؟

Key concepts

  • داده‌های نیمه‌ساختاریافته (درخت/گراف)
  • XML و DTD/XML Schema
  • JSON و ذخیره‌سازهای سندی
  • فیلدهای تودرتو و تکراری
  • طرح‌واره-هنگام-خواندن در مقابل طرح‌واره-هنگام-نوشتن
  • XPath و XQuery
  • داده‌های خودتوصیف‌گر
  • تکامل طرح‌واره

Key theories

داده‌های درختی خودتوصیف‌گر
داده‌های نیمه‌ساختاریافته به صورت درختان یا گراف‌های برچسب‌دار مدل‌سازی می‌شوند که در آن‌ها ساختار در کنار مقادیر کدگذاری شده است، و امکان وجود فیلدهای از دست رفته، اختیاری و ناهمگن را بدون یک طرح‌واره از پیش تعریف شده فراهم می‌کند.
انعطاف‌پذیری طرح‌واره در مقابل اعمال طرح‌واره
مدل‌های سندی و نیمه‌ساختاریافته، یکپارچگی و تضمین‌های پرس‌وجوی یک طرح‌واره ثابت را با انعطاف‌پذیری و سهولت تکامل معاوضه می‌کنند، و در صورت نیاز به تضمین‌های قوی‌تر، به صورت اختیاری در برابر طرح‌واره‌هایی مانند XML Schema یا JSON Schema اعتبارسنجی می‌کنند.
پرس‌وجوی مبتنی بر مسیر
زبان‌هایی مانند XPath و XQuery بخش‌هایی از اسناد درختی را با پیمایش مسیرها و الگوها انتخاب و تبدیل می‌کنند، و یک مدل پرس‌وجو مناسب برای داده‌های تودرتو و نامنظم ارائه می‌دهند.

Clinical relevance

مدل‌های نیمه‌ساختاریافته و سندی زیربنای تبادل داده‌های وب و توسعه برنامه‌های کاربردی مدرن هستند: XML و JSON فرمت‌های غالب برای APIها، پیکربندی، و پیام‌رسانی هستند، و پایگاه‌های داده سندی داده‌های انعطاف‌پذیر و در حال تکامل را برای سیستم‌های وب، موبایل، و مدیریت محتوا ذخیره می‌کنند، جایی که طرح‌واره‌های رابطه‌ای صلب دست و پا گیر خواهند بود.

History

داده‌های نیمه‌ساختاریافته در دهه 1990 برای توصیف داده‌های وب و یکپارچه‌سازی ناهمگن که با طرح‌واره‌های ثابت سازگار نبودند، ظهور کردند. XML در سال 1998 با زبان‌های پرس‌وجوی مرتبط XPath و XQuery به یک استاندارد W3C تبدیل شد؛ JSON بعدها به فرمت سبک و دوفاکتو برای APIهای وب تبدیل شد، و پایگاه‌های داده سندی ذخیره‌سازی مستقیم اسناد JSON را رواج دادند، که سنت نیمه‌ساختاریافته را احیا و گسترش داد.

Key figures

  • Serge Abiteboul
  • Peter Buneman
  • Dan Suciu

Related topics

Seminal works

  • abiteboul2000
  • garciamolina2008

Frequently asked questions

آیا مدل سندی همان نداشتن طرح‌واره است؟
دقیقاً خیر. مدل‌های سندی به جای اینکه بدون طرح‌واره باشند، انعطاف‌پذیر در طرح‌واره هستند: اسناد منفرد ساختار خود را حمل می‌کنند، و طرح‌واره‌های اختیاری (مانند JSON Schema یا XML Schema) می‌توانند برای اعتبارسنجی اعمال شوند. تفاوت با مدل رابطه‌ای این است که ساختار نیازی به یکنواخت بودن در تمام رکوردها ندارد.
چه زمانی مدل‌های سندی بر جداول رابطه‌ای ارجحیت دارند؟
مدل‌های سندی برای داده‌هایی که به طور طبیعی تودرتو، ناهمگن یا به سرعت در حال تکامل هستند — مانند پروفایل‌های کاربر، ورودی‌های کاتالوگ، یا رویدادهای ثبت‌شده — مناسب هستند، جایی که تحمیل یک طرح‌واره جدول یکنواخت دشوار خواهد بود. مدل‌های رابطه‌ای زمانی که داده‌ها منظم هستند و یکپارچگی قوی چند رکوردی و پیوندهای پیچیده مورد نیاز است، همچنان ارجحیت دارند.

Methods for this concept

Related concepts