प्रबलन अधिगम
प्रबलन अधिगम एक एजेंट को परीक्षण और त्रुटि के माध्यम से निर्णयों के अनुक्रम बनाने के लिए प्रशिक्षित करता है, जिससे एक वातावरण के साथ बातचीत के माध्यम से संचयी इनाम को अधिकतम किया जा सके।
Definition
प्रबलन अधिगम एक नीति, स्थितियों से क्रियाओं तक की मैपिंग, सीखने की समस्या है, जो अपेक्षित संचयी इनाम को अधिकतम करती है, जहाँ एजेंट सही व्यवहार के लेबल वाले उदाहरणों के बजाय अपनी स्वयं की क्रियाओं के परिणामों से सीखता है।
Scope
यह क्षेत्र कार्य करने के अधिगम को समाहित करता है: अवस्थाओं, क्रियाओं, पुरस्कारों और संक्रमणों का मार्कोव निर्णय प्रक्रिया ढाँचा; मूल्य कार्य और बेलमैन समीकरण; मूल्य-आधारित विधियाँ जैसे अस्थायी-अंतर अधिगम और क्यू-अधिगम; नीति-प्रवणता विधियाँ जो सीधे एक नीति को अनुकूलित करती हैं; और गहरे तंत्रिका नेटवर्क के साथ इन विचारों का संयोजन। यह अन्वेषण-शोषण व्यापार-बंद और विलंबित इनाम की चुनौती को संबोधित करता है।
Sub-topics
Core questions
- एक एजेंट केवल इनाम संकेतों से अच्छा व्यवहार कैसे सीख सकता है?
- बेलमैन समीकरणों के माध्यम से दीर्घकालिक मूल्य और तत्काल इनाम कैसे संबंधित हैं?
- एक एजेंट को ज्ञात अच्छे कार्यों का उपयोग करने के मुकाबले नए कार्यों की खोज को कैसे संतुलित करना चाहिए?
- बाद के पुरस्कारों के लिए पहले के कार्यों को श्रेय कैसे दिया जाता है?
Key theories
- मार्कोव निर्णय प्रक्रियाएँ और मूल्य कार्य
- पारस्परिक क्रिया को एक मार्कोव निर्णय प्रक्रिया के रूप में प्रतिरूपित किया जाता है, और मूल्य कार्य अपेक्षित भविष्य के इनाम को सारांशित करते हैं, जो बेलमैन समीकरणों को संतुष्ट करते हैं जो लगभग सभी प्रबलन-अधिगम एल्गोरिदम के आधार हैं।
- अस्थायी-अंतर अधिगम
- एजेंट बूटस्ट्रैपिंग द्वारा मूल्य अनुमान सीख सकते हैं, बाद के अनुमानों और देखे गए इनाम की ओर भविष्यवाणियों को अद्यतन कर सकते हैं, जो अधूरे एपिसोड और ऑनलाइन अनुभव से सीखने में सक्षम बनाता है।
- गहरा प्रबलन अधिगम
- मूल्य कार्यों या नीतियों का अनुमान लगाने के लिए गहरे तंत्रिका नेटवर्क का उपयोग करने से प्रबलन अधिगम उच्च-आयामी इनपुट तक बढ़ सकता है, जैसा कि उन एजेंटों द्वारा प्रदर्शित किया गया है जिन्होंने अटारी गेम और गो का खेल खेलना सीखा।
Clinical relevance
प्रबलन अधिगम अनिश्चितता के तहत अनुक्रमिक निर्णय लेने को संबोधित करता है और इसने खेल खेलने, रोबोटिक्स, सिफारिश और नियंत्रण में प्रगति को बढ़ावा दिया है, साथ ही प्रतिक्रिया से सीखने के माध्यम से बड़े भाषा मॉडल का संरेखण भी किया है; इसकी परीक्षण-और-त्रुटि प्रकृति और इनाम को निर्दिष्ट करने की कठिनाई सुरक्षित और नमूना-कुशल अधिगम को सक्रिय चिंताएँ बनाती है।
History
प्रबलन अधिगम ने इष्टतम नियंत्रण, गतिशील प्रोग्रामिंग और पशु अधिगम के विचारों को एकीकृत किया। अस्थायी-अंतर अधिगम और क्यू-अधिगम 1980 के दशक और 1990 के दशक की शुरुआत में उभरे, और सटन और बार्टो की पाठ्यपुस्तक ने इस क्षेत्र को संहिताबद्ध किया। 2010 के दशक में गहरे अधिगम के साथ संयोजन ने ऐसे एजेंटों का उत्पादन किया जो अटारी खेलों में मानव-स्तर का प्रदर्शन और गो में अलौकिक प्रदर्शन तक पहुँचे।
Debates
- नमूना दक्षता और इनाम डिजाइन
- प्रबलन अधिगम को अत्यधिक बातचीत की आवश्यकता हो सकती है और यह इस बात के प्रति संवेदनशील है कि इनाम कैसे निर्दिष्ट किया जाता है, जिससे इस बात पर बहस छिड़ जाती है कि इसे अधिक डेटा-कुशल कैसे बनाया जाए और एजेंटों को गलत निर्दिष्ट पुरस्कारों का शोषण करने से कैसे रोका जाए।
Key figures
- Richard Sutton
- Andrew Barto
- Christopher Watkins
- David Silver
Related topics
Seminal works
- sutton2018
- mnih2015
- silver2016
Frequently asked questions
- प्रबलन अधिगम पर्यवेक्षित अधिगम से कैसे भिन्न है?
- पर्यवेक्षित अधिगम को प्रत्येक इनपुट के लिए सही आउटपुट बताया जाता है। एक प्रबलन-अधिगम एजेंट को केवल एक इनाम संकेत दिया जाता है जो उसके कार्यों के परिणामों का मूल्यांकन करता है, उसे परीक्षण और त्रुटि से अच्छा व्यवहार खोजना चाहिए, और उन पुरस्कारों से निपटना चाहिए जो उन कार्यों के बहुत बाद आते हैं जिन्होंने उन्हें अर्जित किया।
- अन्वेषण-शोषण व्यापार-बंद क्या है?
- एक एजेंट को उन कार्यों का शोषण करने के बीच चयन करना चाहिए जो अच्छे इनाम देने के लिए जाने जाते हैं और उन अनछुए कार्यों की खोज करना चाहिए जो और भी बेहतर हो सकते हैं। बहुत कम अन्वेषण एक उप-इष्टतम रणनीति में बंद कर सकता है, जबकि बहुत अधिक अवसरों को बर्बाद करता है, इसलिए दोनों को संतुलित करना प्रबलन अधिगम के लिए केंद्रीय है।