बिग डेटा प्रोसेसिंग फ्रेमवर्क
बिग डेटा फ्रेमवर्क प्रोग्रामर को किसी एक मशीन की तुलना में कहीं अधिक बड़े डेटा सेट को संसाधित करने की सुविधा देते हैं, जिसमें गणना को समानांतर डेटाफ्लो के रूप में व्यक्त किया जाता है जिसे रनटाइम वितरित करता है और दोष-सहिष्णु बनाता है।
Definition
एक बिग डेटा प्रोसेसिंग फ्रेमवर्क एक ऐसी प्रणाली है जो एक प्रोग्रामर को बहुत बड़े डेटा सेट पर गणना को उच्च-स्तरीय डेटाफ्लो ऑपरेटरों के रूप में व्यक्त करने की सुविधा देती है, और जो स्वचालित रूप से डेटा को विभाजित करती है, एक क्लस्टर में समानांतर निष्पादन को शेड्यूल करती है, और नोड विफलताओं को सहन करती है।
Scope
यह विषय क्लस्टर-स्केल डेटा प्रोसेसिंग के लिए डेटाफ्लो प्रोग्रामिंग मॉडल को कवर करता है: मैप्रेड्यूस प्रतिमान और उसकी सीमाएँ, लचीले वितरित डेटासेट पर निर्मित इन-मेमोरी डेटाफ्लो इंजन, और विंडोइंग, इवेंट-टाइम सिमेंटिक्स और एक्जेक्टली-वन्स गारंटी के साथ एकीकृत बैच-और-स्ट्रीम प्रोसेसिंग। यह बताता है कि कैसे विशाल, संभवतः असीमित, डेटा को विभाजित किया जाता है, समानांतर में संसाधित किया जाता है, और विफलताओं के बाद पुनर्प्राप्त किया जाता है।
Core questions
- एक मशीन के लिए बहुत बड़े डेटा पर गणना को समानांतर में कैसे व्यक्त और निष्पादित किया जा सकता है?
- इन-मेमोरी और स्ट्रीमिंग इंजन बैच मैप्रेड्यूस में कैसे सुधार करते हैं?
- असीमित, अव्यवस्थित स्ट्रीम के लिए शुद्धता, विलंबता और दोष सहिष्णुता को कैसे संतुलित किया जाता है?
Key theories
- मैप्रेड्यूस
- मैप्रेड्यूस डेटा प्रोसेसिंग को एक मैप चरण के रूप में व्यक्त करता है जो रिकॉर्ड को कुंजी-मान युग्मों में बदलता है और एक रिड्यूस चरण जो कुंजी द्वारा एकत्रित करता है, जिसमें रनटाइम समानांतरकरण, डेटा शफलिंग और विफल कार्यों के पुनः-निष्पादन को संभालता है।
- लचीले वितरित डेटासेट
- आरडीडी (RDDs) एक दोष-सहिष्णु इन-मेमोरी अमूर्तता प्रदान करते हैं जिसकी नियतात्मक परिवर्तनों की वंशावली खोए हुए विभाजनों को पुनर्गणना करने की अनुमति देती है, जिससे डिस्क-आधारित मैप्रेड्यूस की तुलना में कहीं अधिक तेज़ पुनरावृत्तीय और इंटरैक्टिव क्लस्टर कंप्यूटिंग संभव होती है।
- एकीकृत बैच और स्ट्रीम डेटाफ्लो
- आधुनिक इंजन बैच को स्ट्रीमिंग के एक विशेष मामले के रूप में मानते हैं, इवेंट-टाइम विंडोइंग और वॉटरमार्क के साथ-साथ सुसंगत स्नैपशॉट का उपयोग करके असीमित, अव्यवस्थित डेटा पर एक्जेक्टली-वन्स परिणाम प्रदान करते हैं।
Clinical relevance
ये फ्रेमवर्क खोज, विश्लेषण, अनुशंसा और मशीन-लर्निंग पाइपलाइन के पीछे के डेटा को संसाधित करते हैं, और स्ट्रीम इंजन वास्तविक समय की निगरानी और इवेंट-ड्रिवन अनुप्रयोगों को शक्ति प्रदान करते हैं, जिससे वे डेटा-गहन कंप्यूटिंग के लिए मुख्य बुनियादी ढाँचा बन जाते हैं।
History
गूगल के 2004 के मैप्रेड्यूस पेपर (2008 में संशोधित) ने क्लस्टर-स्केल डेटा प्रोसेसिंग की स्थापना की; स्पार्क के लचीले वितरित डेटासेट (2012) ने तेज़ इन-मेमोरी और पुनरावृत्तीय प्रोसेसिंग लाई; और फ्लिंक और डेटाफ्लो मॉडल (2015) जैसी प्रणालियों ने मजबूत शुद्धता गारंटी के साथ बैच और स्ट्रीमिंग को एकीकृत किया।
Debates
- प्राथमिक प्रोसेसिंग मॉडल के रूप में बैच बनाम स्ट्रीमिंग
- बैच प्रोसेसिंग सरल है और इसे एक्जेक्टली-वन्स बनाना आसान है लेकिन यह विलंबता बढ़ाता है, जबकि स्ट्रीमिंग अव्यवस्थित डेटा के तहत कठिन शुद्धता की कीमत पर कम विलंबता प्रदान करती है; एकीकृत इंजन तर्क देते हैं कि स्ट्रीमिंग बैच को समाहित कर सकती है, हालांकि बड़े ऐतिहासिक कार्यों के लिए बैच अभी भी सामान्य है।
Key figures
- Jeffrey Dean
- Sanjay Ghemawat
- Matei Zaharia
- Tyler Akidau
Related topics
Seminal works
- dean2008
- zaharia2012
- akidau2015
Frequently asked questions
- स्पार्क और इसी तरह की प्रणालियों ने कई वर्कलोड के लिए सादे मैप्रेड्यूस को क्यों पीछे छोड़ दिया?
- मैप्रेड्यूस प्रत्येक चरण के बीच मध्यवर्ती परिणामों को डिस्क पर लिखता है, जो पुनरावृत्तीय एल्गोरिदम के लिए धीमा होता है। लचीले वितरित डेटासेट जैसी इन-मेमोरी अमूर्तता डेटा को चरणों के बीच मेमोरी में रखती है और विफलता पर केवल खोए हुए विभाजनों को पुनर्गणना करती है, जिससे पुनरावृत्तीय और इंटरैक्टिव विश्लेषण के लिए बड़ी गति मिलती है।