ScholarGate
सहायक

डीप रीइन्फोर्समेंट लर्निंग

डीप रीइन्फोर्समेंट लर्निंग मूल्य कार्यों या नीतियों का अनुमान लगाने के लिए तंत्रिका नेटवर्क का उपयोग करती है, जो छवियों और जटिल खेलों जैसे उच्च-आयामी इनपुट के लिए रीइन्फोर्समेंट लर्निंग को बढ़ाती है।

PaperMind से विषय खोजेंजल्द हीFind papers & topics
Tools & resources
स्लाइड डाउनलोड करें
Learn & explore
वीडियोजल्द ही

Definition

डीप रीइन्फोर्समेंट लर्निंग एक प्रकार की रीइन्फोर्समेंट लर्निंग है जिसमें डीप न्यूरल नेटवर्क मूल्य कार्यों, नीतियों या मॉडलों के लिए फ़ंक्शन एप्रोक्सीमेटर के रूप में कार्य करते हैं, जिससे एजेंटों को हाथ से तैयार की गई स्थिति सुविधाओं के बजाय उच्च-आयामी कच्चे अवलोकनों से सीधे सीखने में सक्षम बनाया जाता है।

Scope

यह विषय रीइन्फोर्समेंट लर्निंग को डीप न्यूरल नेटवर्क के साथ जोड़ने पर केंद्रित है: स्थिरता के लिए अनुभव रीप्ले और लक्ष्य नेटवर्क के साथ डीप क्यू-नेटवर्क, डीप एक्टर-क्रिटिक और नीति-अनुकूलन विधियाँ, और गेम-प्लेइंग सिस्टम में खोज के साथ सीखने का एकीकरण। यह फ़ंक्शन सन्निकटन के साथ मूल्य कार्यों को प्रशिक्षित करने की स्थिरता चुनौतियों और इसके परिणामस्वरूप प्राप्त मील के पत्थर की उपलब्धियों को संबोधित करता है।

Core questions

  • तंत्रिका नेटवर्क रीइन्फोर्समेंट लर्निंग को कच्चे उच्च-आयामी इनपुट को कैसे संभालने देते हैं?
  • फ़ंक्शन सन्निकटन के साथ मूल्य सीखने का संयोजन अस्थिरता के प्रति प्रवृत्त क्यों है?
  • अनुभव रीप्ले और लक्ष्य नेटवर्क जैसी कौन सी तकनीकें प्रशिक्षण को स्थिर करती हैं?
  • गेम-प्लेइंग एजेंटों में सीखने और खोज को कैसे जोड़ा जाता है?

Key theories

डीप क्यू-नेटवर्क
एक डीप नेटवर्क के साथ एक्शन मानों का अनुमान लगाना, अनुभव रीप्ले और धीरे-धीरे अपडेट किए गए लक्ष्य नेटवर्क द्वारा स्थिर किया गया, जिससे एक ही आर्किटेक्चर को पिक्सेल से मानव स्तर तक कई अटारी गेम सीखने की अनुमति मिली।
खोज के साथ संयुक्त सीखना
मोंटे कार्लो ट्री सर्च के साथ डीप पॉलिसी और वैल्यू नेटवर्क को जोड़ना और सेल्फ-प्ले के माध्यम से प्रशिक्षण ने ऐसे सिस्टम तैयार किए जिन्होंने गो के खेल में महारत हासिल की, जो सबसे मजबूत मानव खिलाड़ियों से भी आगे निकल गए।
फ़ंक्शन सन्निकटन की स्थिरता
बूस्टस्ट्रैपिंग, ऑफ-पॉलिसी लर्निंग और फ़ंक्शन सन्निकटन का संयोजन प्रशिक्षण को अलग कर सकता है, इसलिए डीप रीइन्फोर्समेंट लर्निंग मूल्य अनुमानों को स्थिर रखने के लिए सावधानीपूर्वक तकनीकों पर निर्भर करती है।

Clinical relevance

डीप रीइइन्फोर्समेंट लर्निंग ने कृत्रिम बुद्धिमत्ता के कुछ सबसे दृश्यमान प्रदर्शन किए, जिसमें अलौकिक गेम प्ले और रोबोटिक्स और नियंत्रण में प्रगति शामिल है, और इसकी तकनीकें बड़े मॉडलों के इनाम-संचालित फाइन-ट्यूनिंग को सूचित करती हैं; इसकी उच्च नमूना लागत और प्रशिक्षण अस्थिरता महत्वपूर्ण व्यावहारिक सीमाएं बनी हुई हैं।

History

2015 के डीप क्यू-नेटवर्क ने दिखाया कि डीप फ़ंक्शन सन्निकटन के साथ रीइन्फोर्समेंट लर्निंग सीधे पिक्सेल से सीख सकती है, और 2016 के गो-प्लेइंग सिस्टम ने शीर्ष मानव खिलाड़ियों को हराने के लिए डीप नेटवर्क को खोज और सेल्फ-प्ले के साथ जोड़ा। सटन और बार्टो द्वारा संहिताबद्ध रीइन्फोर्समेंट-लर्निंग नींव पर आधारित इन परिणामों ने डीप रीइन्फोर्समेंट लर्निंग को एक प्रमुख अनुसंधान दिशा के रूप में स्थापित किया।

Key figures

  • Volodymyr Mnih
  • David Silver
  • Demis Hassabis

Related topics

Seminal works

  • mnih2015
  • silver2016
  • sutton2018

Frequently asked questions

डीप क्यू-नेटवर्क ने क्या प्रदर्शित किया?
इसने दिखाया कि एक एकल तंत्रिका-नेटवर्क एजेंट स्क्रीन पिक्सेल और स्कोर से सीधे दर्जनों विभिन्न अटारी गेम खेलना सीख सकता है, उनमें से कई पर मानव-स्तर का प्रदर्शन प्राप्त कर सकता है, बिना गेम-विशिष्ट ट्यूनिंग के, स्थिरता के लिए अनुभव रीप्ले और एक लक्ष्य नेटवर्क का उपयोग करके।
डीप रीइन्फोर्समेंट लर्निंग अक्सर अस्थिर क्यों होती है?
बूस्टस्ट्रैप्ड मूल्य अनुमानों, ऑफ-पॉलिसी डेटा और तंत्रिका-नेटवर्क सन्निकटन का संयोजन त्रुटियों को बढ़ा सकता है और प्रशिक्षण को अलग कर सकता है। सीखने को स्थिर रखने के लिए अनुभव रीप्ले, लक्ष्य नेटवर्क और सावधानीपूर्वक सीखने की दर के चुनाव जैसी तकनीकों का उपयोग किया जाता है।

Methods for this concept

Related concepts