ScholarGate
सहायक

वितरित क्वेरी प्रसंस्करण

वितरित क्वेरी प्रसंस्करण कई नोड्स में फैले डेटा पर प्रश्नों का मूल्यांकन करता है, गति के लिए समानांतरता का लाभ उठाता है और नेटवर्क संचार को कम करता है जो एक वितरित सेटिंग में लागत पर हावी होता है।

PaperMind से विषय खोजेंजल्द हीFind papers & topics
Tools & resources
स्लाइड डाउनलोड करें
Learn & explore
वीडियोजल्द ही

Definition

वितरित क्वेरी प्रसंस्करण कई साइटों या विभाजनों पर स्थित डेटा पर एक क्वेरी का विघटन, अनुकूलन और निष्पादन है, जहाँ योजना को नोड्स में काम का समन्वय करना चाहिए और गणना और अंतर-नोड डेटा स्थानांतरण दोनों को कम करना चाहिए।

Scope

यह विषय बताता है कि कैसे प्रश्न विभाजित और प्रतिकृति डेटा पर चलते हैं: समानांतरता के रूप (विभाजित, पाइपलाइन, और स्वतंत्र); समानांतर और वितरित जॉइन रणनीतियाँ जैसे रीपार्टिशन और ब्रॉडकास्ट जॉइन; संचार-कम करने वाली तकनीकें जैसे सेमिजॉइन; और नेटवर्क स्थानांतरण और डेटा प्लेसमेंट को ध्यान में रखने के लिए लागत-आधारित अनुकूलन का विस्तार। यह बताता है कि एक तार्किक क्वेरी को कैसे विघटित किया जाता है और नोड्स में निर्धारित किया जाता है। इसमें डेटा प्लेसमेंट निर्णय और वितरित लेनदेन के लिए कमिट प्रोटोकॉल शामिल नहीं हैं।

Core questions

  • एक वितरित योजना समानांतरता के किन रूपों (विभाजित, पाइपलाइन, स्वतंत्र) का लाभ उठा सकती है?
  • जब इनपुट नोड्स में विभाजित होते हैं तो जॉइन कैसे निष्पादित किए जाते हैं?
  • सेमिजॉइन साइटों के बीच भेजे गए डेटा की मात्रा को कैसे कम करता है?
  • जब नेटवर्क लागत हावी होती है तो अनुकूलन कैसे बदलता है?
  • डेटा प्लेसमेंट किस योजना को सबसे सस्ता बनाता है?

Key concepts

  • विभाजित समानांतरता
  • पाइपलाइन समानांतरता
  • स्वतंत्र समानांतरता
  • रीपार्टिशन (शफल) जॉइन
  • ब्रॉडकास्ट जॉइन
  • सेमिजॉइन कमी
  • संचार लागत
  • डेटा स्थानीयकरण

Key theories

क्वेरी निष्पादन में समानांतरता
वितरित योजनाएँ प्रतिक्रिया समय को कम करने के लिए विभाजित समानांतरता (एक ही ऑपरेटर अलग-अलग डेटा विभाजनों पर चलता है), पाइपलाइन समानांतरता (एक श्रृंखला में ऑपरेटर समवर्ती रूप से चलते हैं), और स्वतंत्र समानांतरता (असंबंधित उपयोजनाएँ एक साथ चलती हैं) का लाभ उठाती हैं।
वितरित और समानांतर जॉइन
विभाजित डेटा पर जॉइन रीपार्टिशनिंग (जॉइन कुंजी द्वारा दोनों इनपुट को शफल करना) या सभी नोड्स पर एक छोटे इनपुट को ब्रॉडकास्ट करना का उपयोग करते हैं; उनके बीच चयन संबंध के आकार और मौजूदा विभाजन पर निर्भर करता है।
सेमिजॉइन और संचार न्यूनीकरण
सेमिजॉइन एक संबंध को केवल उन टुपल्स तक कम कर देता है जो नेटवर्क पर भेजने से पहले मेल खा सकते हैं, जिससे संचार लागत कम हो जाती है; यह तकनीक SDD-1 जैसे प्रारंभिक वितरित क्वेरी प्रोसेसर के लिए केंद्रीय थी।

Clinical relevance

वितरित क्वेरी प्रसंस्करण वह है जो विश्लेषणात्मक प्रणालियों को किसी भी एक मशीन की तुलना में बहुत बड़े डेटा पर प्रश्नों का उत्तर देने की अनुमति देता है, और नेटवर्क ट्रैफ़िक को कम करने और समानांतरता को अधिकतम करने की तकनीकें सीधे बड़े पैमाने पर डेटा वेयरहाउस और क्वेरी इंजनों की गति निर्धारित करती हैं।

History

प्रारंभिक वितरित क्वेरी प्रसंस्करण का नेतृत्व 1980 के आसपास SDD-1 प्रणाली में किया गया था, जिसने सेमिजॉइन-आधारित संचार कमी की शुरुआत की। 1980 और 1990 के दशक के साझा-कुछ भी नहीं समानांतर डेटाबेस, जिसका सर्वेक्षण डीविट और ग्रे ने किया था, ने रीपार्टिशन और ब्रॉडकास्ट जॉइन और समानांतरता वर्गीकरण स्थापित किया जिसका उपयोग आधुनिक वितरित क्वेरी इंजन अभी भी करते हैं।

Key figures

  • Philip Bernstein
  • David DeWitt
  • M. Tamer Özsu
  • Patrick Valduriez

Related topics

Seminal works

  • bernstein1981
  • dewitt1992
  • ozsu2011

Frequently asked questions

वितरित क्वेरी प्रसंस्करण में नेटवर्क लागत इतनी महत्वपूर्ण क्यों है?
एक वितरित डेटाबेस में सबसे धीमा और सबसे अधिक विवादित संसाधन आमतौर पर नोड्स के बीच का नेटवर्क होता है। नोड्स के बीच बड़े मध्यवर्ती परिणाम भेजने से कुल क्वेरी समय पर हावी हो सकता है, इसलिए अनुकूलक और सेमिजॉइन जैसी तकनीकें यथासंभव कम डेटा स्थानांतरित करने पर ध्यान केंद्रित करती हैं, भले ही अतिरिक्त स्थानीय गणना की लागत पर हो।
रीपार्टिशन जॉइन के बजाय ब्रॉडकास्ट जॉइन का उपयोग कब किया जाता है?
एक ब्रॉडकास्ट जॉइन प्रत्येक नोड पर एक इनपुट की एक प्रति भेजता है और तब कुशल होता है जब वह इनपुट छोटा होता है। एक रीपार्टिशन (शफल) जॉइन नोड्स में जॉइन कुंजी द्वारा दोनों इनपुट को पुनर्वितरित करता है और तब उपयोग किया जाता है जब दोनों संबंध बड़े होते हैं। अनुकूलक चुनने के लिए ब्रॉडकास्टिंग बनाम शफलिंग की संचार लागत की तुलना करता है।

Methods for this concept

Related concepts