पॉलिसी ग्रेडिएंट पद्धतियाँ
पॉलिसी ग्रेडिएंट पद्धतियाँ अपेक्षित प्रतिफल के ग्रेडिएंट को बढ़ाकर एक पैरामीटराइज़्ड पॉलिसी को सीधे अनुकूलित करती हैं, बजाय इसके कि किसी वैल्यू फंक्शन से पॉलिसी प्राप्त की जाए।
Definition
पॉलिसी ग्रेडिएंट पद्धतियाँ पॉलिसी को मापदंडों के एक अवकलनीय फलन (differentiable function) के रूप में दर्शाती हैं और उन मापदंडों को उस दिशा में अद्यतन करती हैं जो अपेक्षित संचयी प्रतिफल को बढ़ाती है, एजेंट की पर्यावरण के साथ अंतःक्रिया की नमूनाकृत प्रक्षेपवक्र (sampled trajectories) से आवश्यक ग्रेडिएंट का अनुमान लगाती है।
Scope
यह विषय सुदृढीकरण-शिक्षण (reinforcement-learning) विधियों को शामिल करता है जो पॉलिसी मापदंडों को सीधे समायोजित करती हैं: पॉलिसी ग्रेडिएंट प्रमेय और REINFORCE एल्गोरिथम, विचरण को कम करने के लिए बेसलाइन और एडवांटेज अनुमानों का उपयोग, एक्टर-क्रिटिक पद्धतियाँ जो एक सीखी हुई पॉलिसी को एक सीखे हुए वैल्यू फंक्शन के साथ जोड़ती हैं, और आधुनिक ट्रस्ट-रीजन तथा प्रॉक्सिमल पॉलिसी ऑप्टिमाइज़ेशन। यह इस बात पर भी प्रकाश डालता है कि प्रत्यक्ष पॉलिसी ऑप्टिमाइज़ेशन निरंतर क्रियाओं और स्टोकेस्टिक पॉलिसी के लिए क्यों उपयुक्त है।
Core questions
- ग्रेडिएंट एसेंट द्वारा पॉलिसी को सीधे कैसे सुधारा जा सकता है?
- पॉलिसी ग्रेडिएंट प्रमेय क्या व्यक्त करता है?
- बेसलाइन और क्रिटिक ग्रेडिएंट अनुमानों के विचरण को कैसे कम करते हैं?
- पॉलिसी ग्रेडिएंट पद्धतियाँ निरंतर क्रिया स्थानों के लिए इतनी उपयुक्त क्यों हैं?
Key theories
- पॉलिसी ग्रेडिएंट प्रमेय
- पॉलिसी मापदंडों के संबंध में अपेक्षित प्रतिफल के ग्रेडिएंट को प्रक्षेपवक्रों पर एक अपेक्षा के रूप में लिखा जा सकता है, जिससे इसे पर्यावरण को अलग किए बिना नमूनाकृत अनुभव से अनुमानित किया जा सकता है।
- एक्टर-क्रिटिक पद्धतियाँ
- ग्रेडिएंट एसेंट द्वारा सुधारी गई पॉलिसी को एक सीखे हुए वैल्यू फंक्शन के साथ संयोजित करना जो कम-विचरण आलोचना प्रदान करता है, एक्टर-क्रिटिक पद्धतियों को जन्म देता है जो शुद्ध पॉलिसी ग्रेडिएंट की तुलना में अधिक स्थिरता और दक्षता से सीखती हैं।
- बड़े पैमाने पर पॉलिसी ऑप्टिमाइज़ेशन
- पॉलिसी-आधारित शिक्षण, जिसे अक्सर वैल्यू अनुमान और खोज के साथ जोड़ा जाता है, बड़े पैमाने की सफलताओं का आधार है जैसे कि गो-प्लेइंग सिस्टम जिन्होंने स्व-खेल के माध्यम से खेल में महारत हासिल की।
Clinical relevance
पॉलिसी ग्रेडिएंट और एक्टर-क्रिटिक पद्धतियाँ निरंतर नियंत्रण, रोबोटिक्स और मानव प्रतिक्रिया से बड़े भाषा मॉडल के फाइन-ट्यूनिंग में सुदृढीकरण सीखने के लिए मानक दृष्टिकोण हैं, क्योंकि वे स्टोकेस्टिक पॉलिसी को सीधे अनुकूलित करती हैं और उन क्रिया स्थानों (action spaces) को संभालती हैं जिनसे वैल्यू-आधारित पद्धतियों को कठिनाई होती है।
History
विलियम्स के REINFORCE एल्गोरिथम ने 1992 में पॉलिसी ग्रेडिएंट का अनुमान लगाने का एक सीधा तरीका दिया, और 1990 के दशक के अंत में पॉलिसी ग्रेडिएंट प्रमेय ने एक कठोर आधार प्रदान किया। एक्टर-क्रिटिक आर्किटेक्चर और बाद में ट्रस्ट-रीजन तथा प्रॉक्सिमल पद्धतियों ने स्थिरता में सुधार किया, जिससे पॉलिसी ऑप्टिमाइज़ेशन आधुनिक बड़े पैमाने पर सुदृढीकरण सीखने का केंद्र बन गया।
Key figures
- Ronald Williams
- Richard Sutton
- David Silver
Related topics
Seminal works
- sutton2018
- silver2016
- williams1992
Frequently asked questions
- वैल्यू फंक्शन के बजाय पॉलिसी को सीधे क्यों अनुकूलित करें?
- प्रत्यक्ष पॉलिसी ऑप्टिमाइज़ेशन स्वाभाविक रूप से स्टोकेस्टिक पॉलिसी और निरंतर क्रिया स्थानों को संभालता है, जहाँ वैल्यू फंक्शन से पॉलिसी निकालना मुश्किल होता है। यह व्यवहार में सहज, वृद्धिशील सुधार की भी अनुमति देता है, जो नियंत्रण और रोबोटिक्स कार्यों के लिए उपयुक्त है।
- एक्टर-क्रिटिक विधि क्या है?
- एक एक्टर-क्रिटिक विधि दो सीखे हुए घटकों को बनाए रखती है: एक एक्टर, वह पॉलिसी जो क्रियाओं का चयन करती है, और एक क्रिटिक, एक वैल्यू अनुमान जो यह तय करता है कि वे क्रियाएँ कितनी अच्छी थीं। क्रिटिक की प्रतिक्रिया पॉलिसी अपडेट के विचरण को कम करती है, जिससे सीखना अधिक स्थिर होता है।