कुछ वर्कलोड के लिए जीपीयू सीपीयू की तुलना में इतने तेज़ क्यों होते हैं?

जीपीयू अपने ट्रांजिस्टर का कहीं अधिक हिस्सा अंकगणितीय इकाइयों को समर्पित करते हैं और मेमोरी विलंबता को छिपाने के लिए हजारों थ्रेड चलाते हैं, एकल-थ्रेड गति को कुल थ्रूपुट के लिए व्यापार करते हैं। यह उन्हें नियमित, अत्यधिक डेटा-समानांतर कार्य के लिए उत्कृष्ट बनाता है, हालांकि ब्रांचिंग, विलंबता-संवेदनशील कोड के लिए खराब रूप से अनुकूल है।

जीपीयू और एक्सेलेरेटर कंप्यूटिंग

जीपीयू और एक्सेलेरेटर कंप्यूटिंग बड़े पैमाने पर समानांतर मल्टी-कोर प्रोसेसर का उपयोग करती है ताकि डेटा-समानांतर वर्कलोड को सामान्य-उद्देश्य वाले सीपीयू की तुलना में कहीं अधिक गति से बढ़ाया जा सके।

PaperMind से विषय खोजेंजल्द हीFind papers & topics

Tools & resources

स्लाइड डाउनलोड करें

Learn & explore

वीडियोजल्द ही

Definition

जीपीयू और एक्सेलेरेटर कंप्यूटिंग विशेष मल्टी-कोर प्रोसेसर का उपयोग है, जो उच्च-थ्रूपुट डेटा-समानांतर निष्पादन के लिए अनुकूलित हैं, ताकि होस्ट-डिवाइस प्रोग्रामिंग मॉडल के तहत गणना के समानांतर भागों को ऑफलोड और गति प्रदान की जा सके।

Scope

यह विषय ग्राफिक्स प्रोसेसिंग यूनिट्स और अन्य एक्सेलेरेटर की वास्तुकला को थ्रूपुट-उन्मुख, मल्टी-कोर SIMD/SIMT मशीनों के रूप में शामिल करता है; उन्हें लक्षित करने वाले प्रोग्रामिंग मॉडल (CUDA, OpenCL, और निर्देश-आधारित ऑफलोडिंग); थ्रेड-पदानुक्रम और मेमोरी-पदानुक्रम अमूर्तता (थ्रेड्स, वार्प्स, ब्लॉक्स, ग्रिड्स; ग्लोबल, शेयर्ड और रजिस्टर मेमोरी); और प्रदर्शन संबंधी विचार—ऑक्यूपेंसी, मेमोरी कोलेसिंग और डाइवर्जेंस—जो प्राप्त करने योग्य थ्रूपुट को नियंत्रित करते हैं।

Core questions

थ्रूपुट-उन्मुख, मल्टी-कोर एक्सेलेरेटर मॉडल सामान्य-उद्देश्य वाले सीपीयू से कैसे भिन्न है?
गणनाओं को थ्रेड पदानुक्रम पर बड़े पैमाने पर समानांतर कर्नेल के रूप में कैसे व्यक्त किया जाता है?
कौन से मेमोरी और निष्पादन व्यवहार—कोलेसिंग, डाइवर्जेंस, ऑक्यूपेंसी—प्राप्त करने योग्य प्रदर्शन को सीमित करते हैं?

Key theories

SIMT निष्पादन मॉडल: जीपीयू हजारों हल्के थ्रेड्स को वार्प्स में समूहित करके चलाते हैं जो एक साथ निष्पादित होते हैं (सिंगल-इंस्ट्रक्शन, मल्टीपल-थ्रेड); प्रदर्शन वार्प्स को व्यस्त रखने और वार्प के भीतर नियंत्रण-प्रवाह विचलन से बचने पर निर्भर करता है।
पदानुक्रमित थ्रेड और मेमोरी मॉडल: CUDA थ्रेड्स को ब्लॉक्स और ग्रिड्स में व्यवस्थित करता है और रजिस्टरों, तेज़ शेयर्ड मेमोरी और बड़ी ग्लोबल मेमोरी का एक मेमोरी पदानुक्रम उजागर करता है; डेटा और गणना को इस पदानुक्रम पर मैप करना केंद्रीय प्रदर्शन कार्य है।
सामान्य-उद्देश्य जीपीयू कंप्यूटिंग: निश्चित-कार्य ग्राफिक्स पाइपलाइनों से प्रोग्रामेबल, सामान्य-उद्देश्य वाले एक्सेलेरेटर में विकास ने जीपीयू को वैज्ञानिक और डेटा-गहन कंप्यूटिंग के लिए एक मुख्यधारा मंच में बदल दिया।

Clinical relevance

एक्सेलेरेटर आधुनिक कंप्यूटिंग-गहन अनुप्रयोगों के मुख्य आधार हैं: डीप-लर्निंग प्रशिक्षण और अनुमान, वैज्ञानिक सिमुलेशन, इमेज और सिग्नल प्रोसेसिंग, और क्रिप्टोग्राफी सभी सीपीयू की तुलना में परिमाण के क्रम में गति बढ़ाने के लिए जीपीयू पर निर्भर करते हैं।

History

जीपीयू निश्चित-कार्य ग्राफिक्स हार्डवेयर से प्रोग्रामेबल समानांतर प्रोसेसर में विकसित हुए; 2007 में CUDA की रिलीज़, जिसका वर्णन निकोल्स और सहयोगियों ने 2008 में किया था, ने सामान्य-उद्देश्य वाले जीपीयू कंप्यूटिंग को सुलभ बनाया, और एक्सेलेरेटर बाद में उच्च-प्रदर्शन और मशीन-लर्निंग कंप्यूटिंग के लिए केंद्रीय बन गए।

Key figures

John Nickolls
Wen-mei Hwu
David Kirk
John Owens

Seminal works

nickolls2008
kirk2016
owens2008

Frequently asked questions

कुछ वर्कलोड के लिए जीपीयू सीपीयू की तुलना में इतने तेज़ क्यों होते हैं?: जीपीयू अपने ट्रांजिस्टर का कहीं अधिक हिस्सा अंकगणितीय इकाइयों को समर्पित करते हैं और मेमोरी विलंबता को छिपाने के लिए हजारों थ्रेड चलाते हैं, एकल-थ्रेड गति को कुल थ्रूपुट के लिए व्यापार करते हैं। यह उन्हें नियमित, अत्यधिक डेटा-समानांतर कार्य के लिए उत्कृष्ट बनाता है, हालांकि ब्रांचिंग, विलंबता-संवेदनशील कोड के लिए खराब रूप से अनुकूल है।