बैकप्रॉपैगेशन वास्तव में क्या गणना करता है?

यह प्रत्येक वज़न के संबंध में लॉस के ग्रेडिएंट की गणना करता है, यानी, त्रुटि को कम करने के लिए प्रत्येक वज़न को कितना बदलना चाहिए। यह चेन रूल का उपयोग करके त्रुटि संकेतों को आउटपुट परत से इनपुट परत तक पीछे की ओर प्रसारित करके कुशलता से ऐसा करता है।

एक बार में पूरे डेटा के बजाय छोटे बैचों पर प्रशिक्षण क्यों दिया जाता है?

प्रत्येक अपडेट के लिए पूरे डेटासेट का उपयोग करना महंगा और अनावश्यक है। मिनी-बैच स्टोकेस्टिक ग्रेडिएंट डिसेंट एक छोटे यादृच्छिक नमूने से ग्रेडिएंट का अनुमान लगाता है, जिससे प्रत्येक चरण सस्ता हो जाता है, जिससे कई और अपडेट की अनुमति मिलती है, और शोर जुड़ता है जो खराब समाधानों से बचने में मदद कर सकता है।

बैकप्रॉपैगेशन और ऑप्टिमाइजेशन

बैकप्रॉपैगेशन एक नेटवर्क के वज़न (weights) के संबंध में उसके लॉस (loss) के ग्रेडिएंट (gradient) की कुशलता से गणना करता है, और ग्रेडिएंट-आधारित ऑप्टिमाइज़र उस ग्रेडिएंट का उपयोग नेटवर्क को प्रशिक्षित करने के लिए करते हैं।

PaperMind से विषय खोजेंजल्द हीFind papers & topics

Tools & resources

स्लाइड डाउनलोड करें

Learn & explore

वीडियोजल्द ही

Definition

बैकप्रॉपैगेशन एक एल्गोरिथम है जो चेन रूल का उपयोग करके त्रुटि संकेतों (error signals) को परतों के माध्यम से पीछे की ओर प्रसारित करके एक न्यूरल नेटवर्क में प्रत्येक वज़न के संबंध में एक लॉस फ़ंक्शन (loss function) के ग्रेडिएंट की गणना करता है; ऑप्टिमाइजेशन फिर लॉस को कम करने के लिए वज़न को अपडेट करता है, आमतौर पर स्टोकेस्टिक ग्रेडिएंट डिसेंट के साथ।

Scope

यह विषय बताता है कि गहरे नेटवर्क को कैसे प्रशिक्षित किया जाता है: चेन रूल (chain rule) के अनुप्रयोग के रूप में बैकप्रॉपैगेशन एल्गोरिथम, जो परत-दर-परत ग्रेडिएंट की गणना करता है; स्टोकेस्टिक ग्रेडिएंट डिसेंट (stochastic gradient descent) और इसका मिनी-बैच (mini-batch) रूप; मोमेंटम (momentum) और अनुकूली सीखने की दर (adaptive learning-rate) के तरीके; और वैनिशिंग (vanishing) और एक्सप्लोडिंग ग्रेडिएंट्स (exploding gradients), सीखने की दर के चयन (learning-rate selection), और नॉन-कॉन्वेक्स लॉस सर्फेस (nonconvex loss surfaces) पर अभिसरण (convergence) की व्यावहारिक चुनौतियाँ।

Core questions

बैकप्रॉपैगेशन ग्रेडिएंट्स की कुशलता से गणना कैसे करता है?
बड़े डेटासेट के लिए स्टोकेस्टिक ग्रेडिएंट डिसेंट को क्यों पसंद किया जाता है?
मोमेंटम और अनुकूली तरीके प्रशिक्षण को कैसे तेज करते हैं?
वैनिशिंग या एक्सप्लोडिंग ग्रेडिएंट्स का क्या कारण है और उन्हें कैसे कम किया जाता है?

Key theories

चेन रूल के माध्यम से बैकप्रॉपैगेशन: आउटपुट से पीछे की ओर चेन रूल लागू करके, एल्गोरिथम सभी वज़न ग्रेडिएंट्स की गणना करने के लिए मध्यवर्ती परिणामों का पुन: उपयोग करता है, जो फॉरवर्ड पास (forward pass) के समानुपाती समय में होता है, जिससे बड़े नेटवर्क का प्रशिक्षण संभव हो जाता है।
स्टोकेस्टिक ग्रेडिएंट डिसेंट: छोटे यादृच्छिक बैचों (random batches) से ग्रेडिएंट का अनुमान लगाना प्रत्येक अपडेट को सस्ता बनाता है और सहायक शोर (helpful noise) प्रस्तुत करता है, जिससे बहुत बड़े डेटासेट पर प्रशिक्षण संभव होता है और अक्सर सामान्यीकरण (generalization) में सुधार होता है।
अनुकूली और मोमेंटम तरीके: मोमेंटम पिछले ग्रेडिएंट्स को जमा करता है ताकि डिसेंट को सुचारू किया जा सके, और अनुकूली तरीके प्रति पैरामीटर (per parameter) स्टेप साइज़ (step size) को स्केल करते हैं, दोनों गहरे नेटवर्क के विशिष्ट अस्वस्थ-स्थित (ill-conditioned) लॉस सर्फेस पर अभिसरण को तेज करते हैं।

Clinical relevance

स्टोकेस्टिक ग्रेडिएंट डिसेंट के साथ बैकप्रॉपैगेशन अनिवार्य रूप से सभी आधुनिक डीप लर्निंग (deep learning) के पीछे का इंजन है; यह समझना कि ग्रेडिएंट कैसे प्रवाहित होते हैं, यह बताता है कि ऐतिहासिक रूप से गहराई को प्रशिक्षित करना क्यों मुश्किल था और सक्रियण (activations), इनिशियलाइज़ेशन (initialization) और ऑप्टिमाइज़र में नवाचारों ने बहुत गहरे नेटवर्क को कैसे व्यावहारिक बनाया।

History

बैकप्रॉपैगेशन को कई संदर्भों में व्युत्पन्न किया गया था, जिसमें वेरबोस (Werbos) का 1974 का शोध प्रबंध भी शामिल है, और इसे 1986 में रुमेलहार्ट (Rumelhart), हिंटन (Hinton) और विलियम्स (Williams) द्वारा प्रमुखता मिली। स्टोकेस्टिक ग्रेडिएंट डिसेंट और बाद में मोमेंटम और अनुकूली-सीखने-की-दर ऑप्टिमाइज़र मानक प्रशिक्षण प्रक्रियाएं बन गए, और वैनिशिंग ग्रेडिएंट्स को संबोधित करना गहरे और आवर्ती नेटवर्क (recurrent networks) को प्रशिक्षित करने की कुंजी था।

Key figures

David Rumelhart
Geoffrey Hinton
Ronald Williams
Paul Werbos

Seminal works

rumelhart1986
goodfellow2016
bishop2006

Frequently asked questions

बैकप्रॉपैगेशन वास्तव में क्या गणना करता है?: यह प्रत्येक वज़न के संबंध में लॉस के ग्रेडिएंट की गणना करता है, यानी, त्रुटि को कम करने के लिए प्रत्येक वज़न को कितना बदलना चाहिए। यह चेन रूल का उपयोग करके त्रुटि संकेतों को आउटपुट परत से इनपुट परत तक पीछे की ओर प्रसारित करके कुशलता से ऐसा करता है।
एक बार में पूरे डेटा के बजाय छोटे बैचों पर प्रशिक्षण क्यों दिया जाता है?: प्रत्येक अपडेट के लिए पूरे डेटासेट का उपयोग करना महंगा और अनावश्यक है। मिनी-बैच स्टोकेस्टिक ग्रेडिएंट डिसेंट एक छोटे यादृच्छिक नमूने से ग्रेडिएंट का अनुमान लगाता है, जिससे प्रत्येक चरण सस्ता हो जाता है, जिससे कई और अपडेट की अनुमति मिलती है, और शोर जुड़ता है जो खराब समाधानों से बचने में मदद कर सकता है।