स्पार्क और इसी तरह की प्रणालियों ने कई वर्कलोड के लिए सादे मैप्रेड्यूस को क्यों पीछे छोड़ दिया?

मैप्रेड्यूस प्रत्येक चरण के बीच मध्यवर्ती परिणामों को डिस्क पर लिखता है, जो पुनरावृत्तीय एल्गोरिदम के लिए धीमा होता है। लचीले वितरित डेटासेट जैसी इन-मेमोरी अमूर्तता डेटा को चरणों के बीच मेमोरी में रखती है और विफलता पर केवल खोए हुए विभाजनों को पुनर्गणना करती है, जिससे पुनरावृत्तीय और इंटरैक्टिव विश्लेषण के लिए बड़ी गति मिलती है।

बिग डेटा प्रोसेसिंग फ्रेमवर्क

बिग डेटा फ्रेमवर्क प्रोग्रामर को किसी एक मशीन की तुलना में कहीं अधिक बड़े डेटा सेट को संसाधित करने की सुविधा देते हैं, जिसमें गणना को समानांतर डेटाफ्लो के रूप में व्यक्त किया जाता है जिसे रनटाइम वितरित करता है और दोष-सहिष्णु बनाता है।

PaperMind से विषय खोजेंजल्द हीFind papers & topics

Tools & resources

स्लाइड डाउनलोड करें

Learn & explore

वीडियोजल्द ही

Definition

एक बिग डेटा प्रोसेसिंग फ्रेमवर्क एक ऐसी प्रणाली है जो एक प्रोग्रामर को बहुत बड़े डेटा सेट पर गणना को उच्च-स्तरीय डेटाफ्लो ऑपरेटरों के रूप में व्यक्त करने की सुविधा देती है, और जो स्वचालित रूप से डेटा को विभाजित करती है, एक क्लस्टर में समानांतर निष्पादन को शेड्यूल करती है, और नोड विफलताओं को सहन करती है।

Scope

यह विषय क्लस्टर-स्केल डेटा प्रोसेसिंग के लिए डेटाफ्लो प्रोग्रामिंग मॉडल को कवर करता है: मैप्रेड्यूस प्रतिमान और उसकी सीमाएँ, लचीले वितरित डेटासेट पर निर्मित इन-मेमोरी डेटाफ्लो इंजन, और विंडोइंग, इवेंट-टाइम सिमेंटिक्स और एक्जेक्टली-वन्स गारंटी के साथ एकीकृत बैच-और-स्ट्रीम प्रोसेसिंग। यह बताता है कि कैसे विशाल, संभवतः असीमित, डेटा को विभाजित किया जाता है, समानांतर में संसाधित किया जाता है, और विफलताओं के बाद पुनर्प्राप्त किया जाता है।

Core questions

एक मशीन के लिए बहुत बड़े डेटा पर गणना को समानांतर में कैसे व्यक्त और निष्पादित किया जा सकता है?
इन-मेमोरी और स्ट्रीमिंग इंजन बैच मैप्रेड्यूस में कैसे सुधार करते हैं?
असीमित, अव्यवस्थित स्ट्रीम के लिए शुद्धता, विलंबता और दोष सहिष्णुता को कैसे संतुलित किया जाता है?

Key theories

मैप्रेड्यूस: मैप्रेड्यूस डेटा प्रोसेसिंग को एक मैप चरण के रूप में व्यक्त करता है जो रिकॉर्ड को कुंजी-मान युग्मों में बदलता है और एक रिड्यूस चरण जो कुंजी द्वारा एकत्रित करता है, जिसमें रनटाइम समानांतरकरण, डेटा शफलिंग और विफल कार्यों के पुनः-निष्पादन को संभालता है।
लचीले वितरित डेटासेट: आरडीडी (RDDs) एक दोष-सहिष्णु इन-मेमोरी अमूर्तता प्रदान करते हैं जिसकी नियतात्मक परिवर्तनों की वंशावली खोए हुए विभाजनों को पुनर्गणना करने की अनुमति देती है, जिससे डिस्क-आधारित मैप्रेड्यूस की तुलना में कहीं अधिक तेज़ पुनरावृत्तीय और इंटरैक्टिव क्लस्टर कंप्यूटिंग संभव होती है।
एकीकृत बैच और स्ट्रीम डेटाफ्लो: आधुनिक इंजन बैच को स्ट्रीमिंग के एक विशेष मामले के रूप में मानते हैं, इवेंट-टाइम विंडोइंग और वॉटरमार्क के साथ-साथ सुसंगत स्नैपशॉट का उपयोग करके असीमित, अव्यवस्थित डेटा पर एक्जेक्टली-वन्स परिणाम प्रदान करते हैं।

Clinical relevance

ये फ्रेमवर्क खोज, विश्लेषण, अनुशंसा और मशीन-लर्निंग पाइपलाइन के पीछे के डेटा को संसाधित करते हैं, और स्ट्रीम इंजन वास्तविक समय की निगरानी और इवेंट-ड्रिवन अनुप्रयोगों को शक्ति प्रदान करते हैं, जिससे वे डेटा-गहन कंप्यूटिंग के लिए मुख्य बुनियादी ढाँचा बन जाते हैं।

History

गूगल के 2004 के मैप्रेड्यूस पेपर (2008 में संशोधित) ने क्लस्टर-स्केल डेटा प्रोसेसिंग की स्थापना की; स्पार्क के लचीले वितरित डेटासेट (2012) ने तेज़ इन-मेमोरी और पुनरावृत्तीय प्रोसेसिंग लाई; और फ्लिंक और डेटाफ्लो मॉडल (2015) जैसी प्रणालियों ने मजबूत शुद्धता गारंटी के साथ बैच और स्ट्रीमिंग को एकीकृत किया।

Debates

प्राथमिक प्रोसेसिंग मॉडल के रूप में बैच बनाम स्ट्रीमिंग: बैच प्रोसेसिंग सरल है और इसे एक्जेक्टली-वन्स बनाना आसान है लेकिन यह विलंबता बढ़ाता है, जबकि स्ट्रीमिंग अव्यवस्थित डेटा के तहत कठिन शुद्धता की कीमत पर कम विलंबता प्रदान करती है; एकीकृत इंजन तर्क देते हैं कि स्ट्रीमिंग बैच को समाहित कर सकती है, हालांकि बड़े ऐतिहासिक कार्यों के लिए बैच अभी भी सामान्य है।

Key figures

Jeffrey Dean
Sanjay Ghemawat
Matei Zaharia
Tyler Akidau

Seminal works

dean2008
zaharia2012
akidau2015

Frequently asked questions

स्पार्क और इसी तरह की प्रणालियों ने कई वर्कलोड के लिए सादे मैप्रेड्यूस को क्यों पीछे छोड़ दिया?: मैप्रेड्यूस प्रत्येक चरण के बीच मध्यवर्ती परिणामों को डिस्क पर लिखता है, जो पुनरावृत्तीय एल्गोरिदम के लिए धीमा होता है। लचीले वितरित डेटासेट जैसी इन-मेमोरी अमूर्तता डेटा को चरणों के बीच मेमोरी में रखती है और विफलता पर केवल खोए हुए विभाजनों को पुनर्गणना करती है, जिससे पुनरावृत्तीय और इंटरैक्टिव विश्लेषण के लिए बड़ी गति मिलती है।