डीप क्यू-नेटवर्क ने क्या प्रदर्शित किया?

इसने दिखाया कि एक एकल तंत्रिका-नेटवर्क एजेंट स्क्रीन पिक्सेल और स्कोर से सीधे दर्जनों विभिन्न अटारी गेम खेलना सीख सकता है, उनमें से कई पर मानव-स्तर का प्रदर्शन प्राप्त कर सकता है, बिना गेम-विशिष्ट ट्यूनिंग के, स्थिरता के लिए अनुभव रीप्ले और एक लक्ष्य नेटवर्क का उपयोग करके।

डीप रीइन्फोर्समेंट लर्निंग अक्सर अस्थिर क्यों होती है?

बूस्टस्ट्रैप्ड मूल्य अनुमानों, ऑफ-पॉलिसी डेटा और तंत्रिका-नेटवर्क सन्निकटन का संयोजन त्रुटियों को बढ़ा सकता है और प्रशिक्षण को अलग कर सकता है। सीखने को स्थिर रखने के लिए अनुभव रीप्ले, लक्ष्य नेटवर्क और सावधानीपूर्वक सीखने की दर के चुनाव जैसी तकनीकों का उपयोग किया जाता है।

डीप रीइन्फोर्समेंट लर्निंग

डीप रीइन्फोर्समेंट लर्निंग मूल्य कार्यों या नीतियों का अनुमान लगाने के लिए तंत्रिका नेटवर्क का उपयोग करती है, जो छवियों और जटिल खेलों जैसे उच्च-आयामी इनपुट के लिए रीइन्फोर्समेंट लर्निंग को बढ़ाती है।

PaperMind से विषय खोजेंजल्द हीFind papers & topics

Tools & resources

स्लाइड डाउनलोड करें

Learn & explore

वीडियोजल्द ही

Definition

डीप रीइन्फोर्समेंट लर्निंग एक प्रकार की रीइन्फोर्समेंट लर्निंग है जिसमें डीप न्यूरल नेटवर्क मूल्य कार्यों, नीतियों या मॉडलों के लिए फ़ंक्शन एप्रोक्सीमेटर के रूप में कार्य करते हैं, जिससे एजेंटों को हाथ से तैयार की गई स्थिति सुविधाओं के बजाय उच्च-आयामी कच्चे अवलोकनों से सीधे सीखने में सक्षम बनाया जाता है।

Scope

यह विषय रीइन्फोर्समेंट लर्निंग को डीप न्यूरल नेटवर्क के साथ जोड़ने पर केंद्रित है: स्थिरता के लिए अनुभव रीप्ले और लक्ष्य नेटवर्क के साथ डीप क्यू-नेटवर्क, डीप एक्टर-क्रिटिक और नीति-अनुकूलन विधियाँ, और गेम-प्लेइंग सिस्टम में खोज के साथ सीखने का एकीकरण। यह फ़ंक्शन सन्निकटन के साथ मूल्य कार्यों को प्रशिक्षित करने की स्थिरता चुनौतियों और इसके परिणामस्वरूप प्राप्त मील के पत्थर की उपलब्धियों को संबोधित करता है।

Core questions

तंत्रिका नेटवर्क रीइन्फोर्समेंट लर्निंग को कच्चे उच्च-आयामी इनपुट को कैसे संभालने देते हैं?
फ़ंक्शन सन्निकटन के साथ मूल्य सीखने का संयोजन अस्थिरता के प्रति प्रवृत्त क्यों है?
अनुभव रीप्ले और लक्ष्य नेटवर्क जैसी कौन सी तकनीकें प्रशिक्षण को स्थिर करती हैं?
गेम-प्लेइंग एजेंटों में सीखने और खोज को कैसे जोड़ा जाता है?

Key theories

डीप क्यू-नेटवर्क: एक डीप नेटवर्क के साथ एक्शन मानों का अनुमान लगाना, अनुभव रीप्ले और धीरे-धीरे अपडेट किए गए लक्ष्य नेटवर्क द्वारा स्थिर किया गया, जिससे एक ही आर्किटेक्चर को पिक्सेल से मानव स्तर तक कई अटारी गेम सीखने की अनुमति मिली।
खोज के साथ संयुक्त सीखना: मोंटे कार्लो ट्री सर्च के साथ डीप पॉलिसी और वैल्यू नेटवर्क को जोड़ना और सेल्फ-प्ले के माध्यम से प्रशिक्षण ने ऐसे सिस्टम तैयार किए जिन्होंने गो के खेल में महारत हासिल की, जो सबसे मजबूत मानव खिलाड़ियों से भी आगे निकल गए।
फ़ंक्शन सन्निकटन की स्थिरता: बूस्टस्ट्रैपिंग, ऑफ-पॉलिसी लर्निंग और फ़ंक्शन सन्निकटन का संयोजन प्रशिक्षण को अलग कर सकता है, इसलिए डीप रीइन्फोर्समेंट लर्निंग मूल्य अनुमानों को स्थिर रखने के लिए सावधानीपूर्वक तकनीकों पर निर्भर करती है।

Clinical relevance

डीप रीइइन्फोर्समेंट लर्निंग ने कृत्रिम बुद्धिमत्ता के कुछ सबसे दृश्यमान प्रदर्शन किए, जिसमें अलौकिक गेम प्ले और रोबोटिक्स और नियंत्रण में प्रगति शामिल है, और इसकी तकनीकें बड़े मॉडलों के इनाम-संचालित फाइन-ट्यूनिंग को सूचित करती हैं; इसकी उच्च नमूना लागत और प्रशिक्षण अस्थिरता महत्वपूर्ण व्यावहारिक सीमाएं बनी हुई हैं।

History

2015 के डीप क्यू-नेटवर्क ने दिखाया कि डीप फ़ंक्शन सन्निकटन के साथ रीइन्फोर्समेंट लर्निंग सीधे पिक्सेल से सीख सकती है, और 2016 के गो-प्लेइंग सिस्टम ने शीर्ष मानव खिलाड़ियों को हराने के लिए डीप नेटवर्क को खोज और सेल्फ-प्ले के साथ जोड़ा। सटन और बार्टो द्वारा संहिताबद्ध रीइन्फोर्समेंट-लर्निंग नींव पर आधारित इन परिणामों ने डीप रीइन्फोर्समेंट लर्निंग को एक प्रमुख अनुसंधान दिशा के रूप में स्थापित किया।

Key figures

Volodymyr Mnih
David Silver
Demis Hassabis

Seminal works

mnih2015
silver2016
sutton2018

Frequently asked questions

डीप क्यू-नेटवर्क ने क्या प्रदर्शित किया?: इसने दिखाया कि एक एकल तंत्रिका-नेटवर्क एजेंट स्क्रीन पिक्सेल और स्कोर से सीधे दर्जनों विभिन्न अटारी गेम खेलना सीख सकता है, उनमें से कई पर मानव-स्तर का प्रदर्शन प्राप्त कर सकता है, बिना गेम-विशिष्ट ट्यूनिंग के, स्थिरता के लिए अनुभव रीप्ले और एक लक्ष्य नेटवर्क का उपयोग करके।
डीप रीइन्फोर्समेंट लर्निंग अक्सर अस्थिर क्यों होती है?: बूस्टस्ट्रैप्ड मूल्य अनुमानों, ऑफ-पॉलिसी डेटा और तंत्रिका-नेटवर्क सन्निकटन का संयोजन त्रुटियों को बढ़ा सकता है और प्रशिक्षण को अलग कर सकता है। सीखने को स्थिर रखने के लिए अनुभव रीप्ले, लक्ष्य नेटवर्क और सावधानीपूर्वक सीखने की दर के चुनाव जैसी तकनीकों का उपयोग किया जाता है।