प्रबलन अधिगम पर्यवेक्षित अधिगम से कैसे भिन्न है?

पर्यवेक्षित अधिगम को प्रत्येक इनपुट के लिए सही आउटपुट बताया जाता है। एक प्रबलन-अधिगम एजेंट को केवल एक इनाम संकेत दिया जाता है जो उसके कार्यों के परिणामों का मूल्यांकन करता है, उसे परीक्षण और त्रुटि से अच्छा व्यवहार खोजना चाहिए, और उन पुरस्कारों से निपटना चाहिए जो उन कार्यों के बहुत बाद आते हैं जिन्होंने उन्हें अर्जित किया।

अन्वेषण-शोषण व्यापार-बंद क्या है?

एक एजेंट को उन कार्यों का शोषण करने के बीच चयन करना चाहिए जो अच्छे इनाम देने के लिए जाने जाते हैं और उन अनछुए कार्यों की खोज करना चाहिए जो और भी बेहतर हो सकते हैं। बहुत कम अन्वेषण एक उप-इष्टतम रणनीति में बंद कर सकता है, जबकि बहुत अधिक अवसरों को बर्बाद करता है, इसलिए दोनों को संतुलित करना प्रबलन अधिगम के लिए केंद्रीय है।

प्रबलन अधिगम

प्रबलन अधिगम एक एजेंट को परीक्षण और त्रुटि के माध्यम से निर्णयों के अनुक्रम बनाने के लिए प्रशिक्षित करता है, जिससे एक वातावरण के साथ बातचीत के माध्यम से संचयी इनाम को अधिकतम किया जा सके।

PaperMind से विषय खोजेंजल्द हीFind papers & topics

Tools & resources

स्लाइड डाउनलोड करें

Learn & explore

वीडियोजल्द ही

Definition

प्रबलन अधिगम एक नीति, स्थितियों से क्रियाओं तक की मैपिंग, सीखने की समस्या है, जो अपेक्षित संचयी इनाम को अधिकतम करती है, जहाँ एजेंट सही व्यवहार के लेबल वाले उदाहरणों के बजाय अपनी स्वयं की क्रियाओं के परिणामों से सीखता है।

Scope

यह क्षेत्र कार्य करने के अधिगम को समाहित करता है: अवस्थाओं, क्रियाओं, पुरस्कारों और संक्रमणों का मार्कोव निर्णय प्रक्रिया ढाँचा; मूल्य कार्य और बेलमैन समीकरण; मूल्य-आधारित विधियाँ जैसे अस्थायी-अंतर अधिगम और क्यू-अधिगम; नीति-प्रवणता विधियाँ जो सीधे एक नीति को अनुकूलित करती हैं; और गहरे तंत्रिका नेटवर्क के साथ इन विचारों का संयोजन। यह अन्वेषण-शोषण व्यापार-बंद और विलंबित इनाम की चुनौती को संबोधित करता है।

Sub-topics

Core questions

एक एजेंट केवल इनाम संकेतों से अच्छा व्यवहार कैसे सीख सकता है?
बेलमैन समीकरणों के माध्यम से दीर्घकालिक मूल्य और तत्काल इनाम कैसे संबंधित हैं?
एक एजेंट को ज्ञात अच्छे कार्यों का उपयोग करने के मुकाबले नए कार्यों की खोज को कैसे संतुलित करना चाहिए?
बाद के पुरस्कारों के लिए पहले के कार्यों को श्रेय कैसे दिया जाता है?

Key theories

मार्कोव निर्णय प्रक्रियाएँ और मूल्य कार्य: पारस्परिक क्रिया को एक मार्कोव निर्णय प्रक्रिया के रूप में प्रतिरूपित किया जाता है, और मूल्य कार्य अपेक्षित भविष्य के इनाम को सारांशित करते हैं, जो बेलमैन समीकरणों को संतुष्ट करते हैं जो लगभग सभी प्रबलन-अधिगम एल्गोरिदम के आधार हैं।
अस्थायी-अंतर अधिगम: एजेंट बूटस्ट्रैपिंग द्वारा मूल्य अनुमान सीख सकते हैं, बाद के अनुमानों और देखे गए इनाम की ओर भविष्यवाणियों को अद्यतन कर सकते हैं, जो अधूरे एपिसोड और ऑनलाइन अनुभव से सीखने में सक्षम बनाता है।
गहरा प्रबलन अधिगम: मूल्य कार्यों या नीतियों का अनुमान लगाने के लिए गहरे तंत्रिका नेटवर्क का उपयोग करने से प्रबलन अधिगम उच्च-आयामी इनपुट तक बढ़ सकता है, जैसा कि उन एजेंटों द्वारा प्रदर्शित किया गया है जिन्होंने अटारी गेम और गो का खेल खेलना सीखा।

Clinical relevance

प्रबलन अधिगम अनिश्चितता के तहत अनुक्रमिक निर्णय लेने को संबोधित करता है और इसने खेल खेलने, रोबोटिक्स, सिफारिश और नियंत्रण में प्रगति को बढ़ावा दिया है, साथ ही प्रतिक्रिया से सीखने के माध्यम से बड़े भाषा मॉडल का संरेखण भी किया है; इसकी परीक्षण-और-त्रुटि प्रकृति और इनाम को निर्दिष्ट करने की कठिनाई सुरक्षित और नमूना-कुशल अधिगम को सक्रिय चिंताएँ बनाती है।

History

प्रबलन अधिगम ने इष्टतम नियंत्रण, गतिशील प्रोग्रामिंग और पशु अधिगम के विचारों को एकीकृत किया। अस्थायी-अंतर अधिगम और क्यू-अधिगम 1980 के दशक और 1990 के दशक की शुरुआत में उभरे, और सटन और बार्टो की पाठ्यपुस्तक ने इस क्षेत्र को संहिताबद्ध किया। 2010 के दशक में गहरे अधिगम के साथ संयोजन ने ऐसे एजेंटों का उत्पादन किया जो अटारी खेलों में मानव-स्तर का प्रदर्शन और गो में अलौकिक प्रदर्शन तक पहुँचे।

Debates

नमूना दक्षता और इनाम डिजाइन: प्रबलन अधिगम को अत्यधिक बातचीत की आवश्यकता हो सकती है और यह इस बात के प्रति संवेदनशील है कि इनाम कैसे निर्दिष्ट किया जाता है, जिससे इस बात पर बहस छिड़ जाती है कि इसे अधिक डेटा-कुशल कैसे बनाया जाए और एजेंटों को गलत निर्दिष्ट पुरस्कारों का शोषण करने से कैसे रोका जाए।

Key figures

Richard Sutton
Andrew Barto
Christopher Watkins
David Silver

Seminal works

sutton2018
mnih2015
silver2016

Frequently asked questions

प्रबलन अधिगम पर्यवेक्षित अधिगम से कैसे भिन्न है?: पर्यवेक्षित अधिगम को प्रत्येक इनपुट के लिए सही आउटपुट बताया जाता है। एक प्रबलन-अधिगम एजेंट को केवल एक इनाम संकेत दिया जाता है जो उसके कार्यों के परिणामों का मूल्यांकन करता है, उसे परीक्षण और त्रुटि से अच्छा व्यवहार खोजना चाहिए, और उन पुरस्कारों से निपटना चाहिए जो उन कार्यों के बहुत बाद आते हैं जिन्होंने उन्हें अर्जित किया।
अन्वेषण-शोषण व्यापार-बंद क्या है?: एक एजेंट को उन कार्यों का शोषण करने के बीच चयन करना चाहिए जो अच्छे इनाम देने के लिए जाने जाते हैं और उन अनछुए कार्यों की खोज करना चाहिए जो और भी बेहतर हो सकते हैं। बहुत कम अन्वेषण एक उप-इष्टतम रणनीति में बंद कर सकता है, जबकि बहुत अधिक अवसरों को बर्बाद करता है, इसलिए दोनों को संतुलित करना प्रबलन अधिगम के लिए केंद्रीय है।