अपनी सरलता के बावजूद मैप रिड्यूस इतना प्रभावशाली क्यों था?

इसकी शक्ति इसमें छिपी हुई थी। गणना को मैप और रिड्यूस फ़ंक्शन तक सीमित करके, फ्रेमवर्क स्वचालित रूप से डेटा को विभाजित कर सकता था, हजारों मशीनों में काम को शेड्यूल कर सकता था, कार्यों को फिर से चलाकर विफलताओं से उबर सकता था, और लोड को संतुलित कर सकता था — जिससे प्रोग्रामर वितरित-सिस्टम कोड लिखे बिना विशाल डेटा सेट को संसाधित कर सकते थे।

नए इंजनों ने कई कार्यों के लिए मैप रिड्यूस को क्यों बदल दिया?

क्लासिक मैप रिड्यूस प्रत्येक चरण के बीच मध्यवर्ती परिणामों को डिस्क पर लिखता है, जो मशीन लर्निंग जैसे बहु-चरणीय और पुनरावृत्तीय कार्यों के लिए धीमा होता है। इन-मेमोरी डेटाफ्लो इंजन चरणों के बीच डेटा को मेमोरी में रखते हैं और समृद्ध गणना ग्राफ़ व्यक्त करते हैं, जिससे वंश-आधारित दोष सहिष्णुता को बनाए रखते हुए बड़ी गति मिलती है, इसलिए वे कई विश्लेषणात्मक वर्कलोड के लिए पसंद किए गए।

मैप रिड्यूस और डेटा-पैरेलल प्रोसेसिंग

मैप रिड्यूस और इसके उत्तराधिकारी प्रोग्रामिंग मॉडल और फ्रेमवर्क हैं जो कमोडिटी मशीनों के क्लस्टर में बहुत बड़े डेटा सेट को समानांतर में संसाधित करते हैं, स्वचालित रूप से वितरण, शेड्यूलिंग और दोष सहिष्णुता को संभालते हैं।

PaperMind से विषय खोजेंजल्द हीFind papers & topics

Tools & resources

स्लाइड डाउनलोड करें

Learn & explore

वीडियोजल्द ही

Definition

मैप रिड्यूस एक प्रोग्रामिंग मॉडल है जिसमें एक गणना को एक मैप फ़ंक्शन के रूप में व्यक्त किया जाता है जो कुंजी-मान युग्मों का उत्सर्जन करता है और एक रिड्यूस फ़ंक्शन जो प्रत्येक कुंजी के लिए मानों को एकत्रित करता है, जिसे फ्रेमवर्क-प्रबंधित वितरण और दोष सहिष्णुता के साथ एक क्लस्टर में विभाजित डेटा पर समानांतर में निष्पादित किया जाता है।

Scope

यह विषय मैप रिड्यूस मॉडल को कवर करता है — कुंजी-मान युग्मों पर गणना को मैप और रिड्यूस फ़ंक्शन के रूप में व्यक्त करना, जिसके बीच में एक स्वचालित शफल होता है — और विभाजन, शेड्यूलिंग और पुनः-निष्पादन के माध्यम से दोष सहिष्णुता की आसपास की निष्पादन मशीनरी। यह सामान्य डेटाफ्लो और इन-मेमोरी इंजनों (जैसे लचीला वितरित डेटासेट मॉडल) और उन्हें आधार देने वाले वितरित फ़ाइल सिस्टम के विकास को कवर करता है। इसमें NoSQL स्टोरेज मॉडल और संगति सिद्धांत शामिल नहीं हैं, जो आसन्न विषय हैं।

Core questions

मैप, शफल और रिड्यूस चरण एक गणना को कैसे समानांतर करते हैं?
फ्रेमवर्क डेटा विभाजन, शेड्यूलिंग और स्ट्रैगलर्स को कैसे संभालता है?
विफल कार्यों के पुनः-निष्पादन के माध्यम से दोष सहिष्णुता कैसे प्राप्त की जाती है?
कई वर्कलोड के लिए सामान्य डेटाफ्लो और इन-मेमोरी इंजनों ने मैप रिड्यूस को क्यों सफल किया?
डेटा-पैरेलल प्रोसेसिंग में वितरित फ़ाइल सिस्टम क्या भूमिका निभाते हैं?

Key concepts

मैप और रिड्यूस फ़ंक्शन
शफल और सॉर्ट चरण
डेटा विभाजन
कार्य शेड्यूलिंग और स्ट्रैगलर्स
पुनः-निष्पादन द्वारा दोष सहिष्णुता
वितरित फ़ाइल सिस्टम
डेटाफ्लो ग्राफ़
लचीले वितरित डेटासेट

Key theories

मैप रिड्यूस मॉडल: प्रोग्रामर एक मैप फ़ंक्शन लिखते हैं जो इनपुट रिकॉर्ड को मध्यवर्ती कुंजी-मान युग्मों में बदलता है और एक रिड्यूस फ़ंक्शन जो एक कुंजी के लिए सभी मानों को जोड़ता है; फ्रेमवर्क समानांतर निष्पादन, कुंजी द्वारा मानों को समूहित करने वाले शफल, और विफलताओं से रिकवरी को संभालता है।
पुनः-निष्पादन द्वारा दोष सहिष्णुता: क्योंकि कार्य विभाजित इनपुट पर नियतात्मक फ़ंक्शन होते हैं, फ्रेमवर्क मशीन विफलताओं को केवल विफल मैप या रिड्यूस कार्यों को फिर से चलाकर सहन करता है, और यह धीमी नोड्स को स्ट्रैगलिंग कार्यों की बैकअप (सट्टा) प्रतियां लॉन्च करके कम करता है।
इन-मेमोरी डेटाफ्लो इंजन: बाद के सिस्टम ने मैप रिड्यूस को मनमाने डेटाफ्लो ग्राफ़ में सामान्यीकृत किया और मध्यवर्ती डेटा को मेमोरी में रखा; लचीला वितरित डेटासेट अमूर्तता वंश से उन्हें पुनर्गणना करके खोए हुए विभाजनों को पुनर्प्राप्त करता है, जिससे पुनरावृत्तीय और इंटरैक्टिव वर्कलोड में काफी तेजी आती है।

Clinical relevance

डेटा-पैरेलल प्रोसेसिंग ने क्लस्टर-स्केल गणना को सामान्य प्रोग्रामर के लिए सुलभ बना दिया: मैप रिड्यूस और इसके उत्तराधिकारी लॉग को संसाधित करते हैं, खोज सूचकांक बनाते हैं, मॉडल को प्रशिक्षित करते हैं, और पेटाबाइट्स पर विश्लेषण चलाते हैं, और वे डेटा इंजीनियरिंग और बड़े पैमाने पर डेटा विज्ञान के मूलभूत उपकरण हैं।

History

गूगल ने कमोडिटी क्लस्टर पर वेब को अनुक्रमित करने के लिए गूगल फाइल सिस्टम (2003) के शीर्ष पर मैप रिड्यूस (2004) पेश किया, और ओपन-सोर्स हैडूप ने दोनों को फिर से लागू किया, जिससे मॉडल लोकप्रिय हुआ। 2010 के दशक की शुरुआत तक, लचीले वितरित डेटासेट अमूर्तता (2012) पर निर्मित इन-मेमोरी डेटाफ्लो इंजनों ने पुनरावृत्तीय और इंटरैक्टिव विश्लेषण के लिए मैप रिड्यूस को पीछे छोड़ दिया, जबकि इसकी दोष सहिष्णुता के विचारों को बनाए रखा।

Key figures

Jeffrey Dean
Sanjay Ghemawat
Matei Zaharia

Seminal works

dean2008
ghemawat2003
zaharia2012

Frequently asked questions

अपनी सरलता के बावजूद मैप रिड्यूस इतना प्रभावशाली क्यों था?: इसकी शक्ति इसमें छिपी हुई थी। गणना को मैप और रिड्यूस फ़ंक्शन तक सीमित करके, फ्रेमवर्क स्वचालित रूप से डेटा को विभाजित कर सकता था, हजारों मशीनों में काम को शेड्यूल कर सकता था, कार्यों को फिर से चलाकर विफलताओं से उबर सकता था, और लोड को संतुलित कर सकता था — जिससे प्रोग्रामर वितरित-सिस्टम कोड लिखे बिना विशाल डेटा सेट को संसाधित कर सकते थे।
नए इंजनों ने कई कार्यों के लिए मैप रिड्यूस को क्यों बदल दिया?: क्लासिक मैप रिड्यूस प्रत्येक चरण के बीच मध्यवर्ती परिणामों को डिस्क पर लिखता है, जो मशीन लर्निंग जैसे बहु-चरणीय और पुनरावृत्तीय कार्यों के लिए धीमा होता है। इन-मेमोरी डेटाफ्लो इंजन चरणों के बीच डेटा को मेमोरी में रखते हैं और समृद्ध गणना ग्राफ़ व्यक्त करते हैं, जिससे वंश-आधारित दोष सहिष्णुता को बनाए रखते हुए बड़ी गति मिलती है, इसलिए वे कई विश्लेषणात्मक वर्कलोड के लिए पसंद किए गए।