ScholarGate
सहायक

बिग डेटा प्रोसेसिंग फ्रेमवर्क

बिग डेटा फ्रेमवर्क प्रोग्रामर को किसी एक मशीन की तुलना में कहीं अधिक बड़े डेटा सेट को संसाधित करने की सुविधा देते हैं, जिसमें गणना को समानांतर डेटाफ्लो के रूप में व्यक्त किया जाता है जिसे रनटाइम वितरित करता है और दोष-सहिष्णु बनाता है।

PaperMind से विषय खोजेंजल्द हीFind papers & topics
Tools & resources
स्लाइड डाउनलोड करें
Learn & explore
वीडियोजल्द ही

Definition

एक बिग डेटा प्रोसेसिंग फ्रेमवर्क एक ऐसी प्रणाली है जो एक प्रोग्रामर को बहुत बड़े डेटा सेट पर गणना को उच्च-स्तरीय डेटाफ्लो ऑपरेटरों के रूप में व्यक्त करने की सुविधा देती है, और जो स्वचालित रूप से डेटा को विभाजित करती है, एक क्लस्टर में समानांतर निष्पादन को शेड्यूल करती है, और नोड विफलताओं को सहन करती है।

Scope

यह विषय क्लस्टर-स्केल डेटा प्रोसेसिंग के लिए डेटाफ्लो प्रोग्रामिंग मॉडल को कवर करता है: मैप्रेड्यूस प्रतिमान और उसकी सीमाएँ, लचीले वितरित डेटासेट पर निर्मित इन-मेमोरी डेटाफ्लो इंजन, और विंडोइंग, इवेंट-टाइम सिमेंटिक्स और एक्जेक्टली-वन्स गारंटी के साथ एकीकृत बैच-और-स्ट्रीम प्रोसेसिंग। यह बताता है कि कैसे विशाल, संभवतः असीमित, डेटा को विभाजित किया जाता है, समानांतर में संसाधित किया जाता है, और विफलताओं के बाद पुनर्प्राप्त किया जाता है।

Core questions

  • एक मशीन के लिए बहुत बड़े डेटा पर गणना को समानांतर में कैसे व्यक्त और निष्पादित किया जा सकता है?
  • इन-मेमोरी और स्ट्रीमिंग इंजन बैच मैप्रेड्यूस में कैसे सुधार करते हैं?
  • असीमित, अव्यवस्थित स्ट्रीम के लिए शुद्धता, विलंबता और दोष सहिष्णुता को कैसे संतुलित किया जाता है?

Key theories

मैप्रेड्यूस
मैप्रेड्यूस डेटा प्रोसेसिंग को एक मैप चरण के रूप में व्यक्त करता है जो रिकॉर्ड को कुंजी-मान युग्मों में बदलता है और एक रिड्यूस चरण जो कुंजी द्वारा एकत्रित करता है, जिसमें रनटाइम समानांतरकरण, डेटा शफलिंग और विफल कार्यों के पुनः-निष्पादन को संभालता है।
लचीले वितरित डेटासेट
आरडीडी (RDDs) एक दोष-सहिष्णु इन-मेमोरी अमूर्तता प्रदान करते हैं जिसकी नियतात्मक परिवर्तनों की वंशावली खोए हुए विभाजनों को पुनर्गणना करने की अनुमति देती है, जिससे डिस्क-आधारित मैप्रेड्यूस की तुलना में कहीं अधिक तेज़ पुनरावृत्तीय और इंटरैक्टिव क्लस्टर कंप्यूटिंग संभव होती है।
एकीकृत बैच और स्ट्रीम डेटाफ्लो
आधुनिक इंजन बैच को स्ट्रीमिंग के एक विशेष मामले के रूप में मानते हैं, इवेंट-टाइम विंडोइंग और वॉटरमार्क के साथ-साथ सुसंगत स्नैपशॉट का उपयोग करके असीमित, अव्यवस्थित डेटा पर एक्जेक्टली-वन्स परिणाम प्रदान करते हैं।

Clinical relevance

ये फ्रेमवर्क खोज, विश्लेषण, अनुशंसा और मशीन-लर्निंग पाइपलाइन के पीछे के डेटा को संसाधित करते हैं, और स्ट्रीम इंजन वास्तविक समय की निगरानी और इवेंट-ड्रिवन अनुप्रयोगों को शक्ति प्रदान करते हैं, जिससे वे डेटा-गहन कंप्यूटिंग के लिए मुख्य बुनियादी ढाँचा बन जाते हैं।

History

गूगल के 2004 के मैप्रेड्यूस पेपर (2008 में संशोधित) ने क्लस्टर-स्केल डेटा प्रोसेसिंग की स्थापना की; स्पार्क के लचीले वितरित डेटासेट (2012) ने तेज़ इन-मेमोरी और पुनरावृत्तीय प्रोसेसिंग लाई; और फ्लिंक और डेटाफ्लो मॉडल (2015) जैसी प्रणालियों ने मजबूत शुद्धता गारंटी के साथ बैच और स्ट्रीमिंग को एकीकृत किया।

Debates

प्राथमिक प्रोसेसिंग मॉडल के रूप में बैच बनाम स्ट्रीमिंग
बैच प्रोसेसिंग सरल है और इसे एक्जेक्टली-वन्स बनाना आसान है लेकिन यह विलंबता बढ़ाता है, जबकि स्ट्रीमिंग अव्यवस्थित डेटा के तहत कठिन शुद्धता की कीमत पर कम विलंबता प्रदान करती है; एकीकृत इंजन तर्क देते हैं कि स्ट्रीमिंग बैच को समाहित कर सकती है, हालांकि बड़े ऐतिहासिक कार्यों के लिए बैच अभी भी सामान्य है।

Key figures

  • Jeffrey Dean
  • Sanjay Ghemawat
  • Matei Zaharia
  • Tyler Akidau

Related topics

Seminal works

  • dean2008
  • zaharia2012
  • akidau2015

Frequently asked questions

स्पार्क और इसी तरह की प्रणालियों ने कई वर्कलोड के लिए सादे मैप्रेड्यूस को क्यों पीछे छोड़ दिया?
मैप्रेड्यूस प्रत्येक चरण के बीच मध्यवर्ती परिणामों को डिस्क पर लिखता है, जो पुनरावृत्तीय एल्गोरिदम के लिए धीमा होता है। लचीले वितरित डेटासेट जैसी इन-मेमोरी अमूर्तता डेटा को चरणों के बीच मेमोरी में रखती है और विफलता पर केवल खोए हुए विभाजनों को पुनर्गणना करती है, जिससे पुनरावृत्तीय और इंटरैक्टिव विश्लेषण के लिए बड़ी गति मिलती है।

Methods for this concept

Related concepts