डीप रीइन्फोर्समेंट लर्निंग
डीप रीइन्फोर्समेंट लर्निंग मूल्य कार्यों या नीतियों का अनुमान लगाने के लिए तंत्रिका नेटवर्क का उपयोग करती है, जो छवियों और जटिल खेलों जैसे उच्च-आयामी इनपुट के लिए रीइन्फोर्समेंट लर्निंग को बढ़ाती है।
Definition
डीप रीइन्फोर्समेंट लर्निंग एक प्रकार की रीइन्फोर्समेंट लर्निंग है जिसमें डीप न्यूरल नेटवर्क मूल्य कार्यों, नीतियों या मॉडलों के लिए फ़ंक्शन एप्रोक्सीमेटर के रूप में कार्य करते हैं, जिससे एजेंटों को हाथ से तैयार की गई स्थिति सुविधाओं के बजाय उच्च-आयामी कच्चे अवलोकनों से सीधे सीखने में सक्षम बनाया जाता है।
Scope
यह विषय रीइन्फोर्समेंट लर्निंग को डीप न्यूरल नेटवर्क के साथ जोड़ने पर केंद्रित है: स्थिरता के लिए अनुभव रीप्ले और लक्ष्य नेटवर्क के साथ डीप क्यू-नेटवर्क, डीप एक्टर-क्रिटिक और नीति-अनुकूलन विधियाँ, और गेम-प्लेइंग सिस्टम में खोज के साथ सीखने का एकीकरण। यह फ़ंक्शन सन्निकटन के साथ मूल्य कार्यों को प्रशिक्षित करने की स्थिरता चुनौतियों और इसके परिणामस्वरूप प्राप्त मील के पत्थर की उपलब्धियों को संबोधित करता है।
Core questions
- तंत्रिका नेटवर्क रीइन्फोर्समेंट लर्निंग को कच्चे उच्च-आयामी इनपुट को कैसे संभालने देते हैं?
- फ़ंक्शन सन्निकटन के साथ मूल्य सीखने का संयोजन अस्थिरता के प्रति प्रवृत्त क्यों है?
- अनुभव रीप्ले और लक्ष्य नेटवर्क जैसी कौन सी तकनीकें प्रशिक्षण को स्थिर करती हैं?
- गेम-प्लेइंग एजेंटों में सीखने और खोज को कैसे जोड़ा जाता है?
Key theories
- डीप क्यू-नेटवर्क
- एक डीप नेटवर्क के साथ एक्शन मानों का अनुमान लगाना, अनुभव रीप्ले और धीरे-धीरे अपडेट किए गए लक्ष्य नेटवर्क द्वारा स्थिर किया गया, जिससे एक ही आर्किटेक्चर को पिक्सेल से मानव स्तर तक कई अटारी गेम सीखने की अनुमति मिली।
- खोज के साथ संयुक्त सीखना
- मोंटे कार्लो ट्री सर्च के साथ डीप पॉलिसी और वैल्यू नेटवर्क को जोड़ना और सेल्फ-प्ले के माध्यम से प्रशिक्षण ने ऐसे सिस्टम तैयार किए जिन्होंने गो के खेल में महारत हासिल की, जो सबसे मजबूत मानव खिलाड़ियों से भी आगे निकल गए।
- फ़ंक्शन सन्निकटन की स्थिरता
- बूस्टस्ट्रैपिंग, ऑफ-पॉलिसी लर्निंग और फ़ंक्शन सन्निकटन का संयोजन प्रशिक्षण को अलग कर सकता है, इसलिए डीप रीइन्फोर्समेंट लर्निंग मूल्य अनुमानों को स्थिर रखने के लिए सावधानीपूर्वक तकनीकों पर निर्भर करती है।
Clinical relevance
डीप रीइइन्फोर्समेंट लर्निंग ने कृत्रिम बुद्धिमत्ता के कुछ सबसे दृश्यमान प्रदर्शन किए, जिसमें अलौकिक गेम प्ले और रोबोटिक्स और नियंत्रण में प्रगति शामिल है, और इसकी तकनीकें बड़े मॉडलों के इनाम-संचालित फाइन-ट्यूनिंग को सूचित करती हैं; इसकी उच्च नमूना लागत और प्रशिक्षण अस्थिरता महत्वपूर्ण व्यावहारिक सीमाएं बनी हुई हैं।
History
2015 के डीप क्यू-नेटवर्क ने दिखाया कि डीप फ़ंक्शन सन्निकटन के साथ रीइन्फोर्समेंट लर्निंग सीधे पिक्सेल से सीख सकती है, और 2016 के गो-प्लेइंग सिस्टम ने शीर्ष मानव खिलाड़ियों को हराने के लिए डीप नेटवर्क को खोज और सेल्फ-प्ले के साथ जोड़ा। सटन और बार्टो द्वारा संहिताबद्ध रीइन्फोर्समेंट-लर्निंग नींव पर आधारित इन परिणामों ने डीप रीइन्फोर्समेंट लर्निंग को एक प्रमुख अनुसंधान दिशा के रूप में स्थापित किया।
Key figures
- Volodymyr Mnih
- David Silver
- Demis Hassabis
Related topics
Seminal works
- mnih2015
- silver2016
- sutton2018
Frequently asked questions
- डीप क्यू-नेटवर्क ने क्या प्रदर्शित किया?
- इसने दिखाया कि एक एकल तंत्रिका-नेटवर्क एजेंट स्क्रीन पिक्सेल और स्कोर से सीधे दर्जनों विभिन्न अटारी गेम खेलना सीख सकता है, उनमें से कई पर मानव-स्तर का प्रदर्शन प्राप्त कर सकता है, बिना गेम-विशिष्ट ट्यूनिंग के, स्थिरता के लिए अनुभव रीप्ले और एक लक्ष्य नेटवर्क का उपयोग करके।
- डीप रीइन्फोर्समेंट लर्निंग अक्सर अस्थिर क्यों होती है?
- बूस्टस्ट्रैप्ड मूल्य अनुमानों, ऑफ-पॉलिसी डेटा और तंत्रिका-नेटवर्क सन्निकटन का संयोजन त्रुटियों को बढ़ा सकता है और प्रशिक्षण को अलग कर सकता है। सीखने को स्थिर रखने के लिए अनुभव रीप्ले, लक्ष्य नेटवर्क और सावधानीपूर्वक सीखने की दर के चुनाव जैसी तकनीकों का उपयोग किया जाता है।