مدلهای نیمهساختاریافته و سندی
مدلهای داده نیمهساختاریافته و سندی، دادهها را به صورت درختان یا اشیاء تودرتوی خودتوصیفگر و با ساختار نامنظم نمایش میدهند — مانند XML و JSON — که در آنها ساختار همراه با داده حمل میشود، نه اینکه توسط یک طرحواره (schema) صلب ثابت شده باشد.
Definition
دادههای نیمهساختاریافته، دادههایی هستند که دارای ساختار سازمانی مشخصی هستند اما با یک طرحواره ثابت مطابقت ندارند، و معمولاً به صورت درختان برچسبدار یا اشیاء کلید-مقدار تودرتو مدلسازی میشوند؛ مدلهای سندی چنین دادههایی را به عنوان اسناد مستقل (معمولاً JSON یا XML) ذخیره میکنند، نه به عنوان ردیفهایی در جداول ثابت.
Scope
این موضوع مدلهای دادهای را پوشش میدهد که الزامات رابطهای یک طرحواره یکنواخت را کاهش میدهند: دادههای نیمهساختاریافته درختی و گرافی، XML با DTDها و طرحوارههای خود، و مدلهای سندی مبتنی بر JSON که توسط ذخیرهسازهای سندی استفاده میشوند. این موضوع به تودرتویی، فیلدهای اختیاری و تکراری، انعطافپذیری طرحواره، و زبانهای پرسوجوی مسیر-محور و درخت-محور (مانند XPath و XQuery) که بر روی آنها عمل میکنند، میپردازد. این موضوع مهندسی گستردهتر سیستمهای NoSQL و مدلهای سازگاری را شامل نمیشود، که در حوزه دادههای بزرگ و NoSQL پوشش داده شدهاند.
Core questions
- دادههای خودتوصیفگر و با طرحواره انعطافپذیر چه تفاوتی با جداول رابطهای صلب دارند؟
- XML و JSON چگونه برای نمایش دادههای تودرتو و نامنظم استفاده میشوند؟
- طرحوارههای اختیاری (DTDs، XML Schema، JSON Schema) چه نقشی ایفا میکنند؟
- زبانهای پرسوجوی مسیر و درخت مانند XPath و XQuery چگونه در دادهها پیمایش میکنند؟
- مزایا و معایب مدلهای سندی در مقایسه با مدل رابطهای چیست؟
Key concepts
- دادههای نیمهساختاریافته (درخت/گراف)
- XML و DTD/XML Schema
- JSON و ذخیرهسازهای سندی
- فیلدهای تودرتو و تکراری
- طرحواره-هنگام-خواندن در مقابل طرحواره-هنگام-نوشتن
- XPath و XQuery
- دادههای خودتوصیفگر
- تکامل طرحواره
Key theories
- دادههای درختی خودتوصیفگر
- دادههای نیمهساختاریافته به صورت درختان یا گرافهای برچسبدار مدلسازی میشوند که در آنها ساختار در کنار مقادیر کدگذاری شده است، و امکان وجود فیلدهای از دست رفته، اختیاری و ناهمگن را بدون یک طرحواره از پیش تعریف شده فراهم میکند.
- انعطافپذیری طرحواره در مقابل اعمال طرحواره
- مدلهای سندی و نیمهساختاریافته، یکپارچگی و تضمینهای پرسوجوی یک طرحواره ثابت را با انعطافپذیری و سهولت تکامل معاوضه میکنند، و در صورت نیاز به تضمینهای قویتر، به صورت اختیاری در برابر طرحوارههایی مانند XML Schema یا JSON Schema اعتبارسنجی میکنند.
- پرسوجوی مبتنی بر مسیر
- زبانهایی مانند XPath و XQuery بخشهایی از اسناد درختی را با پیمایش مسیرها و الگوها انتخاب و تبدیل میکنند، و یک مدل پرسوجو مناسب برای دادههای تودرتو و نامنظم ارائه میدهند.
Clinical relevance
مدلهای نیمهساختاریافته و سندی زیربنای تبادل دادههای وب و توسعه برنامههای کاربردی مدرن هستند: XML و JSON فرمتهای غالب برای APIها، پیکربندی، و پیامرسانی هستند، و پایگاههای داده سندی دادههای انعطافپذیر و در حال تکامل را برای سیستمهای وب، موبایل، و مدیریت محتوا ذخیره میکنند، جایی که طرحوارههای رابطهای صلب دست و پا گیر خواهند بود.
History
دادههای نیمهساختاریافته در دهه 1990 برای توصیف دادههای وب و یکپارچهسازی ناهمگن که با طرحوارههای ثابت سازگار نبودند، ظهور کردند. XML در سال 1998 با زبانهای پرسوجوی مرتبط XPath و XQuery به یک استاندارد W3C تبدیل شد؛ JSON بعدها به فرمت سبک و دوفاکتو برای APIهای وب تبدیل شد، و پایگاههای داده سندی ذخیرهسازی مستقیم اسناد JSON را رواج دادند، که سنت نیمهساختاریافته را احیا و گسترش داد.
Key figures
- Serge Abiteboul
- Peter Buneman
- Dan Suciu
Related topics
Seminal works
- abiteboul2000
- garciamolina2008
Frequently asked questions
- آیا مدل سندی همان نداشتن طرحواره است؟
- دقیقاً خیر. مدلهای سندی به جای اینکه بدون طرحواره باشند، انعطافپذیر در طرحواره هستند: اسناد منفرد ساختار خود را حمل میکنند، و طرحوارههای اختیاری (مانند JSON Schema یا XML Schema) میتوانند برای اعتبارسنجی اعمال شوند. تفاوت با مدل رابطهای این است که ساختار نیازی به یکنواخت بودن در تمام رکوردها ندارد.
- چه زمانی مدلهای سندی بر جداول رابطهای ارجحیت دارند؟
- مدلهای سندی برای دادههایی که به طور طبیعی تودرتو، ناهمگن یا به سرعت در حال تکامل هستند — مانند پروفایلهای کاربر، ورودیهای کاتالوگ، یا رویدادهای ثبتشده — مناسب هستند، جایی که تحمیل یک طرحواره جدول یکنواخت دشوار خواهد بود. مدلهای رابطهای زمانی که دادهها منظم هستند و یکپارچگی قوی چند رکوردی و پیوندهای پیچیده مورد نیاز است، همچنان ارجحیت دارند.