ScholarGate
सहायक

प्रबलन अधिगम

प्रबलन अधिगम एक एजेंट को परीक्षण और त्रुटि के माध्यम से निर्णयों के अनुक्रम बनाने के लिए प्रशिक्षित करता है, जिससे एक वातावरण के साथ बातचीत के माध्यम से संचयी इनाम को अधिकतम किया जा सके।

PaperMind से विषय खोजेंजल्द हीFind papers & topics
Tools & resources
स्लाइड डाउनलोड करें
Learn & explore
वीडियोजल्द ही

Definition

प्रबलन अधिगम एक नीति, स्थितियों से क्रियाओं तक की मैपिंग, सीखने की समस्या है, जो अपेक्षित संचयी इनाम को अधिकतम करती है, जहाँ एजेंट सही व्यवहार के लेबल वाले उदाहरणों के बजाय अपनी स्वयं की क्रियाओं के परिणामों से सीखता है।

Scope

यह क्षेत्र कार्य करने के अधिगम को समाहित करता है: अवस्थाओं, क्रियाओं, पुरस्कारों और संक्रमणों का मार्कोव निर्णय प्रक्रिया ढाँचा; मूल्य कार्य और बेलमैन समीकरण; मूल्य-आधारित विधियाँ जैसे अस्थायी-अंतर अधिगम और क्यू-अधिगम; नीति-प्रवणता विधियाँ जो सीधे एक नीति को अनुकूलित करती हैं; और गहरे तंत्रिका नेटवर्क के साथ इन विचारों का संयोजन। यह अन्वेषण-शोषण व्यापार-बंद और विलंबित इनाम की चुनौती को संबोधित करता है।

Sub-topics

Core questions

  • एक एजेंट केवल इनाम संकेतों से अच्छा व्यवहार कैसे सीख सकता है?
  • बेलमैन समीकरणों के माध्यम से दीर्घकालिक मूल्य और तत्काल इनाम कैसे संबंधित हैं?
  • एक एजेंट को ज्ञात अच्छे कार्यों का उपयोग करने के मुकाबले नए कार्यों की खोज को कैसे संतुलित करना चाहिए?
  • बाद के पुरस्कारों के लिए पहले के कार्यों को श्रेय कैसे दिया जाता है?

Key theories

मार्कोव निर्णय प्रक्रियाएँ और मूल्य कार्य
पारस्परिक क्रिया को एक मार्कोव निर्णय प्रक्रिया के रूप में प्रतिरूपित किया जाता है, और मूल्य कार्य अपेक्षित भविष्य के इनाम को सारांशित करते हैं, जो बेलमैन समीकरणों को संतुष्ट करते हैं जो लगभग सभी प्रबलन-अधिगम एल्गोरिदम के आधार हैं।
अस्थायी-अंतर अधिगम
एजेंट बूटस्ट्रैपिंग द्वारा मूल्य अनुमान सीख सकते हैं, बाद के अनुमानों और देखे गए इनाम की ओर भविष्यवाणियों को अद्यतन कर सकते हैं, जो अधूरे एपिसोड और ऑनलाइन अनुभव से सीखने में सक्षम बनाता है।
गहरा प्रबलन अधिगम
मूल्य कार्यों या नीतियों का अनुमान लगाने के लिए गहरे तंत्रिका नेटवर्क का उपयोग करने से प्रबलन अधिगम उच्च-आयामी इनपुट तक बढ़ सकता है, जैसा कि उन एजेंटों द्वारा प्रदर्शित किया गया है जिन्होंने अटारी गेम और गो का खेल खेलना सीखा।

Clinical relevance

प्रबलन अधिगम अनिश्चितता के तहत अनुक्रमिक निर्णय लेने को संबोधित करता है और इसने खेल खेलने, रोबोटिक्स, सिफारिश और नियंत्रण में प्रगति को बढ़ावा दिया है, साथ ही प्रतिक्रिया से सीखने के माध्यम से बड़े भाषा मॉडल का संरेखण भी किया है; इसकी परीक्षण-और-त्रुटि प्रकृति और इनाम को निर्दिष्ट करने की कठिनाई सुरक्षित और नमूना-कुशल अधिगम को सक्रिय चिंताएँ बनाती है।

History

प्रबलन अधिगम ने इष्टतम नियंत्रण, गतिशील प्रोग्रामिंग और पशु अधिगम के विचारों को एकीकृत किया। अस्थायी-अंतर अधिगम और क्यू-अधिगम 1980 के दशक और 1990 के दशक की शुरुआत में उभरे, और सटन और बार्टो की पाठ्यपुस्तक ने इस क्षेत्र को संहिताबद्ध किया। 2010 के दशक में गहरे अधिगम के साथ संयोजन ने ऐसे एजेंटों का उत्पादन किया जो अटारी खेलों में मानव-स्तर का प्रदर्शन और गो में अलौकिक प्रदर्शन तक पहुँचे।

Debates

नमूना दक्षता और इनाम डिजाइन
प्रबलन अधिगम को अत्यधिक बातचीत की आवश्यकता हो सकती है और यह इस बात के प्रति संवेदनशील है कि इनाम कैसे निर्दिष्ट किया जाता है, जिससे इस बात पर बहस छिड़ जाती है कि इसे अधिक डेटा-कुशल कैसे बनाया जाए और एजेंटों को गलत निर्दिष्ट पुरस्कारों का शोषण करने से कैसे रोका जाए।

Key figures

  • Richard Sutton
  • Andrew Barto
  • Christopher Watkins
  • David Silver

Related topics

Seminal works

  • sutton2018
  • mnih2015
  • silver2016

Frequently asked questions

प्रबलन अधिगम पर्यवेक्षित अधिगम से कैसे भिन्न है?
पर्यवेक्षित अधिगम को प्रत्येक इनपुट के लिए सही आउटपुट बताया जाता है। एक प्रबलन-अधिगम एजेंट को केवल एक इनाम संकेत दिया जाता है जो उसके कार्यों के परिणामों का मूल्यांकन करता है, उसे परीक्षण और त्रुटि से अच्छा व्यवहार खोजना चाहिए, और उन पुरस्कारों से निपटना चाहिए जो उन कार्यों के बहुत बाद आते हैं जिन्होंने उन्हें अर्जित किया।
अन्वेषण-शोषण व्यापार-बंद क्या है?
एक एजेंट को उन कार्यों का शोषण करने के बीच चयन करना चाहिए जो अच्छे इनाम देने के लिए जाने जाते हैं और उन अनछुए कार्यों की खोज करना चाहिए जो और भी बेहतर हो सकते हैं। बहुत कम अन्वेषण एक उप-इष्टतम रणनीति में बंद कर सकता है, जबकि बहुत अधिक अवसरों को बर्बाद करता है, इसलिए दोनों को संतुलित करना प्रबलन अधिगम के लिए केंद्रीय है।

Methods for this concept

Related concepts