معالجة الاستعلامات الموزعة
تقوم معالجة الاستعلامات الموزعة بتقييم الاستعلامات على البيانات الموزعة عبر العديد من العقد، مستغلةً التوازي لتحقيق السرعة وتقليل الاتصالات الشبكية التي تهيمن على التكلفة في البيئة الموزعة.
Definition
معالجة الاستعلامات الموزعة هي تفكيك وتحسين وتنفيذ استعلام على بيانات موجودة في مواقع أو أقسام متعددة، حيث يجب أن تنسق الخطة العمل عبر العقد وتقلل كلاً من الحساب ونقل البيانات بين العقد.
Scope
يغطي هذا الموضوع كيفية تشغيل الاستعلامات عبر البيانات المجزأة والمكررة: أشكال التوازي (المجزأ، المتسلسل، والمستقل)؛ استراتيجيات الربط المتوازية والموزعة مثل إعادة التجزئة وربط البث؛ تقنيات تقليل الاتصالات مثل الربط الجزئي (semijoin)؛ وتوسيع التحسين القائم على التكلفة لمراعاة نقل الشبكة وتحديد موضع البيانات. ويتناول كيفية تفكيك الاستعلام المنطقي وجدولته عبر العقد. ويستثني قرارات تحديد موضع البيانات وبروتوكولات الالتزام للمعاملات الموزعة.
Core questions
- ما هي أشكال التوازي (المجزأ، المتسلسل، المستقل) التي يمكن أن تستغلها الخطة الموزعة؟
- كيف يتم تنفيذ عمليات الربط عندما تكون المدخلات مجزأة عبر العقد؟
- كيف يقلل الربط الجزئي (semijoin) كمية البيانات المنقولة بين المواقع؟
- كيف يتغير التحسين عندما تهيمن تكلفة الشبكة؟
- كيف يؤثر تحديد موضع البيانات على أي خطة هي الأقل تكلفة؟
Key concepts
- التوازي المجزأ
- التوازي المتسلسل
- التوازي المستقل
- ربط إعادة التجزئة (الخلط)
- ربط البث
- تقليل الربط الجزئي
- تكلفة الاتصال
- توطين البيانات
Key theories
- التوازي في تنفيذ الاستعلام
- تستغل الخطط الموزعة التوازي المجزأ (حيث يعمل نفس المشغل على أقسام بيانات منفصلة)، والتوازي المتسلسل (حيث تعمل المشغلات في سلسلة بشكل متزامن)، والتوازي المستقل (حيث تعمل الخطط الفرعية غير المرتبطة في وقت واحد) لتقليل وقت الاستجابة.
- الربط الموزع والمتوازي
- تستخدم عمليات الربط على البيانات المجزأة إعادة التجزئة (خلط كلتا المدخلات بواسطة مفتاح الربط) أو بث مدخل صغير إلى جميع العقد؛ ويعتمد الاختيار بينهما على أحجام العلاقات والتجزئة الموجودة.
- الربط الجزئي وتقليل الاتصالات
- يقلل الربط الجزئي (semijoin) العلاقة إلى الصفوف التي يمكن أن تتطابق فقط قبل نقلها عبر الشبكة، مما يقلل تكلفة الاتصال؛ وكانت هذه التقنية أساسية لمعالجات الاستعلام الموزعة المبكرة مثل SDD-1.
Clinical relevance
تسمح معالجة الاستعلامات الموزعة للأنظمة التحليلية بالإجابة على الاستعلامات على بيانات أكبر بكثير مما يمكن أن تحتويه أي آلة منفردة، وتحدد تقنيات تقليل حركة مرور الشبكة وزيادة التوازي بشكل مباشر سرعة مستودعات البيانات ومحركات الاستعلام واسعة النطاق.
History
كانت معالجة الاستعلامات الموزعة المبكرة رائدة في نظام SDD-1 حوالي عام 1980، والذي قدم تقليل الاتصالات القائم على الربط الجزئي (semijoin). وقد أسست قواعد البيانات المتوازية ذات البنية المشتركة (shared-nothing) في الثمانينات والتسعينات، والتي استعرضها ديويت وجراي، لربط إعادة التجزئة وربط البث وتصنيف التوازي الذي لا تزال تستخدمه محركات الاستعلام الموزعة الحديثة.
Key figures
- Philip Bernstein
- David DeWitt
- M. Tamer Özsu
- Patrick Valduriez
Related topics
Seminal works
- bernstein1981
- dewitt1992
- ozsu2011
Frequently asked questions
- لماذا تعتبر تكلفة الشبكة مهمة جدًا في معالجة الاستعلامات الموزعة؟
- في قاعدة البيانات الموزعة، عادةً ما تكون الشبكة بين العقد هي أبطأ الموارد وأكثرها تنافسًا. يمكن أن يهيمن نقل النتائج الوسيطة الكبيرة عبر العقد على إجمالي وقت الاستعلام، لذا تركز المحسنات والتقنيات مثل الربط الجزئي (semijoin) على نقل أقل قدر ممكن من البيانات، حتى على حساب الحساب المحلي الإضافي.
- متى يتم استخدام ربط البث بدلاً من ربط إعادة التجزئة؟
- يرسل ربط البث نسخة من أحد المدخلات إلى كل عقدة ويكون فعالاً عندما يكون هذا المدخل صغيرًا. يقوم ربط إعادة التجزئة (الخلط) بإعادة توزيع كلا المدخلين بواسطة مفتاح الربط عبر العقد ويستخدم عندما تكون كلتا العلاقتين كبيرتين. يقارن المحسن تكلفة الاتصال للبث مقابل الخلط للاختيار.