ScholarGate
सहायक

पॉलिसी ग्रेडिएंट पद्धतियाँ

पॉलिसी ग्रेडिएंट पद्धतियाँ अपेक्षित प्रतिफल के ग्रेडिएंट को बढ़ाकर एक पैरामीटराइज़्ड पॉलिसी को सीधे अनुकूलित करती हैं, बजाय इसके कि किसी वैल्यू फंक्शन से पॉलिसी प्राप्त की जाए।

PaperMind से विषय खोजेंजल्द हीFind papers & topics
Tools & resources
स्लाइड डाउनलोड करें
Learn & explore
वीडियोजल्द ही

Definition

पॉलिसी ग्रेडिएंट पद्धतियाँ पॉलिसी को मापदंडों के एक अवकलनीय फलन (differentiable function) के रूप में दर्शाती हैं और उन मापदंडों को उस दिशा में अद्यतन करती हैं जो अपेक्षित संचयी प्रतिफल को बढ़ाती है, एजेंट की पर्यावरण के साथ अंतःक्रिया की नमूनाकृत प्रक्षेपवक्र (sampled trajectories) से आवश्यक ग्रेडिएंट का अनुमान लगाती है।

Scope

यह विषय सुदृढीकरण-शिक्षण (reinforcement-learning) विधियों को शामिल करता है जो पॉलिसी मापदंडों को सीधे समायोजित करती हैं: पॉलिसी ग्रेडिएंट प्रमेय और REINFORCE एल्गोरिथम, विचरण को कम करने के लिए बेसलाइन और एडवांटेज अनुमानों का उपयोग, एक्टर-क्रिटिक पद्धतियाँ जो एक सीखी हुई पॉलिसी को एक सीखे हुए वैल्यू फंक्शन के साथ जोड़ती हैं, और आधुनिक ट्रस्ट-रीजन तथा प्रॉक्सिमल पॉलिसी ऑप्टिमाइज़ेशन। यह इस बात पर भी प्रकाश डालता है कि प्रत्यक्ष पॉलिसी ऑप्टिमाइज़ेशन निरंतर क्रियाओं और स्टोकेस्टिक पॉलिसी के लिए क्यों उपयुक्त है।

Core questions

  • ग्रेडिएंट एसेंट द्वारा पॉलिसी को सीधे कैसे सुधारा जा सकता है?
  • पॉलिसी ग्रेडिएंट प्रमेय क्या व्यक्त करता है?
  • बेसलाइन और क्रिटिक ग्रेडिएंट अनुमानों के विचरण को कैसे कम करते हैं?
  • पॉलिसी ग्रेडिएंट पद्धतियाँ निरंतर क्रिया स्थानों के लिए इतनी उपयुक्त क्यों हैं?

Key theories

पॉलिसी ग्रेडिएंट प्रमेय
पॉलिसी मापदंडों के संबंध में अपेक्षित प्रतिफल के ग्रेडिएंट को प्रक्षेपवक्रों पर एक अपेक्षा के रूप में लिखा जा सकता है, जिससे इसे पर्यावरण को अलग किए बिना नमूनाकृत अनुभव से अनुमानित किया जा सकता है।
एक्टर-क्रिटिक पद्धतियाँ
ग्रेडिएंट एसेंट द्वारा सुधारी गई पॉलिसी को एक सीखे हुए वैल्यू फंक्शन के साथ संयोजित करना जो कम-विचरण आलोचना प्रदान करता है, एक्टर-क्रिटिक पद्धतियों को जन्म देता है जो शुद्ध पॉलिसी ग्रेडिएंट की तुलना में अधिक स्थिरता और दक्षता से सीखती हैं।
बड़े पैमाने पर पॉलिसी ऑप्टिमाइज़ेशन
पॉलिसी-आधारित शिक्षण, जिसे अक्सर वैल्यू अनुमान और खोज के साथ जोड़ा जाता है, बड़े पैमाने की सफलताओं का आधार है जैसे कि गो-प्लेइंग सिस्टम जिन्होंने स्व-खेल के माध्यम से खेल में महारत हासिल की।

Clinical relevance

पॉलिसी ग्रेडिएंट और एक्टर-क्रिटिक पद्धतियाँ निरंतर नियंत्रण, रोबोटिक्स और मानव प्रतिक्रिया से बड़े भाषा मॉडल के फाइन-ट्यूनिंग में सुदृढीकरण सीखने के लिए मानक दृष्टिकोण हैं, क्योंकि वे स्टोकेस्टिक पॉलिसी को सीधे अनुकूलित करती हैं और उन क्रिया स्थानों (action spaces) को संभालती हैं जिनसे वैल्यू-आधारित पद्धतियों को कठिनाई होती है।

History

विलियम्स के REINFORCE एल्गोरिथम ने 1992 में पॉलिसी ग्रेडिएंट का अनुमान लगाने का एक सीधा तरीका दिया, और 1990 के दशक के अंत में पॉलिसी ग्रेडिएंट प्रमेय ने एक कठोर आधार प्रदान किया। एक्टर-क्रिटिक आर्किटेक्चर और बाद में ट्रस्ट-रीजन तथा प्रॉक्सिमल पद्धतियों ने स्थिरता में सुधार किया, जिससे पॉलिसी ऑप्टिमाइज़ेशन आधुनिक बड़े पैमाने पर सुदृढीकरण सीखने का केंद्र बन गया।

Key figures

  • Ronald Williams
  • Richard Sutton
  • David Silver

Related topics

Seminal works

  • sutton2018
  • silver2016
  • williams1992

Frequently asked questions

वैल्यू फंक्शन के बजाय पॉलिसी को सीधे क्यों अनुकूलित करें?
प्रत्यक्ष पॉलिसी ऑप्टिमाइज़ेशन स्वाभाविक रूप से स्टोकेस्टिक पॉलिसी और निरंतर क्रिया स्थानों को संभालता है, जहाँ वैल्यू फंक्शन से पॉलिसी निकालना मुश्किल होता है। यह व्यवहार में सहज, वृद्धिशील सुधार की भी अनुमति देता है, जो नियंत्रण और रोबोटिक्स कार्यों के लिए उपयुक्त है।
एक्टर-क्रिटिक विधि क्या है?
एक एक्टर-क्रिटिक विधि दो सीखे हुए घटकों को बनाए रखती है: एक एक्टर, वह पॉलिसी जो क्रियाओं का चयन करती है, और एक क्रिटिक, एक वैल्यू अनुमान जो यह तय करता है कि वे क्रियाएँ कितनी अच्छी थीं। क्रिटिक की प्रतिक्रिया पॉलिसी अपडेट के विचरण को कम करती है, जिससे सीखना अधिक स्थिर होता है।

Methods for this concept

Related concepts