ScholarGate
सहायक

बैकप्रॉपैगेशन और ऑप्टिमाइजेशन

बैकप्रॉपैगेशन एक नेटवर्क के वज़न (weights) के संबंध में उसके लॉस (loss) के ग्रेडिएंट (gradient) की कुशलता से गणना करता है, और ग्रेडिएंट-आधारित ऑप्टिमाइज़र उस ग्रेडिएंट का उपयोग नेटवर्क को प्रशिक्षित करने के लिए करते हैं।

PaperMind से विषय खोजेंजल्द हीFind papers & topics
Tools & resources
स्लाइड डाउनलोड करें
Learn & explore
वीडियोजल्द ही

Definition

बैकप्रॉपैगेशन एक एल्गोरिथम है जो चेन रूल का उपयोग करके त्रुटि संकेतों (error signals) को परतों के माध्यम से पीछे की ओर प्रसारित करके एक न्यूरल नेटवर्क में प्रत्येक वज़न के संबंध में एक लॉस फ़ंक्शन (loss function) के ग्रेडिएंट की गणना करता है; ऑप्टिमाइजेशन फिर लॉस को कम करने के लिए वज़न को अपडेट करता है, आमतौर पर स्टोकेस्टिक ग्रेडिएंट डिसेंट के साथ।

Scope

यह विषय बताता है कि गहरे नेटवर्क को कैसे प्रशिक्षित किया जाता है: चेन रूल (chain rule) के अनुप्रयोग के रूप में बैकप्रॉपैगेशन एल्गोरिथम, जो परत-दर-परत ग्रेडिएंट की गणना करता है; स्टोकेस्टिक ग्रेडिएंट डिसेंट (stochastic gradient descent) और इसका मिनी-बैच (mini-batch) रूप; मोमेंटम (momentum) और अनुकूली सीखने की दर (adaptive learning-rate) के तरीके; और वैनिशिंग (vanishing) और एक्सप्लोडिंग ग्रेडिएंट्स (exploding gradients), सीखने की दर के चयन (learning-rate selection), और नॉन-कॉन्वेक्स लॉस सर्फेस (nonconvex loss surfaces) पर अभिसरण (convergence) की व्यावहारिक चुनौतियाँ।

Core questions

  • बैकप्रॉपैगेशन ग्रेडिएंट्स की कुशलता से गणना कैसे करता है?
  • बड़े डेटासेट के लिए स्टोकेस्टिक ग्रेडिएंट डिसेंट को क्यों पसंद किया जाता है?
  • मोमेंटम और अनुकूली तरीके प्रशिक्षण को कैसे तेज करते हैं?
  • वैनिशिंग या एक्सप्लोडिंग ग्रेडिएंट्स का क्या कारण है और उन्हें कैसे कम किया जाता है?

Key theories

चेन रूल के माध्यम से बैकप्रॉपैगेशन
आउटपुट से पीछे की ओर चेन रूल लागू करके, एल्गोरिथम सभी वज़न ग्रेडिएंट्स की गणना करने के लिए मध्यवर्ती परिणामों का पुन: उपयोग करता है, जो फॉरवर्ड पास (forward pass) के समानुपाती समय में होता है, जिससे बड़े नेटवर्क का प्रशिक्षण संभव हो जाता है।
स्टोकेस्टिक ग्रेडिएंट डिसेंट
छोटे यादृच्छिक बैचों (random batches) से ग्रेडिएंट का अनुमान लगाना प्रत्येक अपडेट को सस्ता बनाता है और सहायक शोर (helpful noise) प्रस्तुत करता है, जिससे बहुत बड़े डेटासेट पर प्रशिक्षण संभव होता है और अक्सर सामान्यीकरण (generalization) में सुधार होता है।
अनुकूली और मोमेंटम तरीके
मोमेंटम पिछले ग्रेडिएंट्स को जमा करता है ताकि डिसेंट को सुचारू किया जा सके, और अनुकूली तरीके प्रति पैरामीटर (per parameter) स्टेप साइज़ (step size) को स्केल करते हैं, दोनों गहरे नेटवर्क के विशिष्ट अस्वस्थ-स्थित (ill-conditioned) लॉस सर्फेस पर अभिसरण को तेज करते हैं।

Clinical relevance

स्टोकेस्टिक ग्रेडिएंट डिसेंट के साथ बैकप्रॉपैगेशन अनिवार्य रूप से सभी आधुनिक डीप लर्निंग (deep learning) के पीछे का इंजन है; यह समझना कि ग्रेडिएंट कैसे प्रवाहित होते हैं, यह बताता है कि ऐतिहासिक रूप से गहराई को प्रशिक्षित करना क्यों मुश्किल था और सक्रियण (activations), इनिशियलाइज़ेशन (initialization) और ऑप्टिमाइज़र में नवाचारों ने बहुत गहरे नेटवर्क को कैसे व्यावहारिक बनाया।

History

बैकप्रॉपैगेशन को कई संदर्भों में व्युत्पन्न किया गया था, जिसमें वेरबोस (Werbos) का 1974 का शोध प्रबंध भी शामिल है, और इसे 1986 में रुमेलहार्ट (Rumelhart), हिंटन (Hinton) और विलियम्स (Williams) द्वारा प्रमुखता मिली। स्टोकेस्टिक ग्रेडिएंट डिसेंट और बाद में मोमेंटम और अनुकूली-सीखने-की-दर ऑप्टिमाइज़र मानक प्रशिक्षण प्रक्रियाएं बन गए, और वैनिशिंग ग्रेडिएंट्स को संबोधित करना गहरे और आवर्ती नेटवर्क (recurrent networks) को प्रशिक्षित करने की कुंजी था।

Key figures

  • David Rumelhart
  • Geoffrey Hinton
  • Ronald Williams
  • Paul Werbos

Related topics

Seminal works

  • rumelhart1986
  • goodfellow2016
  • bishop2006

Frequently asked questions

बैकप्रॉपैगेशन वास्तव में क्या गणना करता है?
यह प्रत्येक वज़न के संबंध में लॉस के ग्रेडिएंट की गणना करता है, यानी, त्रुटि को कम करने के लिए प्रत्येक वज़न को कितना बदलना चाहिए। यह चेन रूल का उपयोग करके त्रुटि संकेतों को आउटपुट परत से इनपुट परत तक पीछे की ओर प्रसारित करके कुशलता से ऐसा करता है।
एक बार में पूरे डेटा के बजाय छोटे बैचों पर प्रशिक्षण क्यों दिया जाता है?
प्रत्येक अपडेट के लिए पूरे डेटासेट का उपयोग करना महंगा और अनावश्यक है। मिनी-बैच स्टोकेस्टिक ग्रेडिएंट डिसेंट एक छोटे यादृच्छिक नमूने से ग्रेडिएंट का अनुमान लगाता है, जिससे प्रत्येक चरण सस्ता हो जाता है, जिससे कई और अपडेट की अनुमति मिलती है, और शोर जुड़ता है जो खराब समाधानों से बचने में मदद कर सकता है।

Methods for this concept

Related concepts