वैल्यू फंक्शन के बजाय पॉलिसी को सीधे क्यों अनुकूलित करें?

प्रत्यक्ष पॉलिसी ऑप्टिमाइज़ेशन स्वाभाविक रूप से स्टोकेस्टिक पॉलिसी और निरंतर क्रिया स्थानों को संभालता है, जहाँ वैल्यू फंक्शन से पॉलिसी निकालना मुश्किल होता है। यह व्यवहार में सहज, वृद्धिशील सुधार की भी अनुमति देता है, जो नियंत्रण और रोबोटिक्स कार्यों के लिए उपयुक्त है।

एक्टर-क्रिटिक विधि क्या है?

एक एक्टर-क्रिटिक विधि दो सीखे हुए घटकों को बनाए रखती है: एक एक्टर, वह पॉलिसी जो क्रियाओं का चयन करती है, और एक क्रिटिक, एक वैल्यू अनुमान जो यह तय करता है कि वे क्रियाएँ कितनी अच्छी थीं। क्रिटिक की प्रतिक्रिया पॉलिसी अपडेट के विचरण को कम करती है, जिससे सीखना अधिक स्थिर होता है।

पॉलिसी ग्रेडिएंट पद्धतियाँ

पॉलिसी ग्रेडिएंट पद्धतियाँ अपेक्षित प्रतिफल के ग्रेडिएंट को बढ़ाकर एक पैरामीटराइज़्ड पॉलिसी को सीधे अनुकूलित करती हैं, बजाय इसके कि किसी वैल्यू फंक्शन से पॉलिसी प्राप्त की जाए।

PaperMind से विषय खोजेंजल्द हीFind papers & topics

Tools & resources

स्लाइड डाउनलोड करें

Learn & explore

वीडियोजल्द ही

Definition

पॉलिसी ग्रेडिएंट पद्धतियाँ पॉलिसी को मापदंडों के एक अवकलनीय फलन (differentiable function) के रूप में दर्शाती हैं और उन मापदंडों को उस दिशा में अद्यतन करती हैं जो अपेक्षित संचयी प्रतिफल को बढ़ाती है, एजेंट की पर्यावरण के साथ अंतःक्रिया की नमूनाकृत प्रक्षेपवक्र (sampled trajectories) से आवश्यक ग्रेडिएंट का अनुमान लगाती है।

Scope

यह विषय सुदृढीकरण-शिक्षण (reinforcement-learning) विधियों को शामिल करता है जो पॉलिसी मापदंडों को सीधे समायोजित करती हैं: पॉलिसी ग्रेडिएंट प्रमेय और REINFORCE एल्गोरिथम, विचरण को कम करने के लिए बेसलाइन और एडवांटेज अनुमानों का उपयोग, एक्टर-क्रिटिक पद्धतियाँ जो एक सीखी हुई पॉलिसी को एक सीखे हुए वैल्यू फंक्शन के साथ जोड़ती हैं, और आधुनिक ट्रस्ट-रीजन तथा प्रॉक्सिमल पॉलिसी ऑप्टिमाइज़ेशन। यह इस बात पर भी प्रकाश डालता है कि प्रत्यक्ष पॉलिसी ऑप्टिमाइज़ेशन निरंतर क्रियाओं और स्टोकेस्टिक पॉलिसी के लिए क्यों उपयुक्त है।

Core questions

ग्रेडिएंट एसेंट द्वारा पॉलिसी को सीधे कैसे सुधारा जा सकता है?
पॉलिसी ग्रेडिएंट प्रमेय क्या व्यक्त करता है?
बेसलाइन और क्रिटिक ग्रेडिएंट अनुमानों के विचरण को कैसे कम करते हैं?
पॉलिसी ग्रेडिएंट पद्धतियाँ निरंतर क्रिया स्थानों के लिए इतनी उपयुक्त क्यों हैं?

Key theories

पॉलिसी ग्रेडिएंट प्रमेय: पॉलिसी मापदंडों के संबंध में अपेक्षित प्रतिफल के ग्रेडिएंट को प्रक्षेपवक्रों पर एक अपेक्षा के रूप में लिखा जा सकता है, जिससे इसे पर्यावरण को अलग किए बिना नमूनाकृत अनुभव से अनुमानित किया जा सकता है।
एक्टर-क्रिटिक पद्धतियाँ: ग्रेडिएंट एसेंट द्वारा सुधारी गई पॉलिसी को एक सीखे हुए वैल्यू फंक्शन के साथ संयोजित करना जो कम-विचरण आलोचना प्रदान करता है, एक्टर-क्रिटिक पद्धतियों को जन्म देता है जो शुद्ध पॉलिसी ग्रेडिएंट की तुलना में अधिक स्थिरता और दक्षता से सीखती हैं।
बड़े पैमाने पर पॉलिसी ऑप्टिमाइज़ेशन: पॉलिसी-आधारित शिक्षण, जिसे अक्सर वैल्यू अनुमान और खोज के साथ जोड़ा जाता है, बड़े पैमाने की सफलताओं का आधार है जैसे कि गो-प्लेइंग सिस्टम जिन्होंने स्व-खेल के माध्यम से खेल में महारत हासिल की।

Clinical relevance

पॉलिसी ग्रेडिएंट और एक्टर-क्रिटिक पद्धतियाँ निरंतर नियंत्रण, रोबोटिक्स और मानव प्रतिक्रिया से बड़े भाषा मॉडल के फाइन-ट्यूनिंग में सुदृढीकरण सीखने के लिए मानक दृष्टिकोण हैं, क्योंकि वे स्टोकेस्टिक पॉलिसी को सीधे अनुकूलित करती हैं और उन क्रिया स्थानों (action spaces) को संभालती हैं जिनसे वैल्यू-आधारित पद्धतियों को कठिनाई होती है।

History

विलियम्स के REINFORCE एल्गोरिथम ने 1992 में पॉलिसी ग्रेडिएंट का अनुमान लगाने का एक सीधा तरीका दिया, और 1990 के दशक के अंत में पॉलिसी ग्रेडिएंट प्रमेय ने एक कठोर आधार प्रदान किया। एक्टर-क्रिटिक आर्किटेक्चर और बाद में ट्रस्ट-रीजन तथा प्रॉक्सिमल पद्धतियों ने स्थिरता में सुधार किया, जिससे पॉलिसी ऑप्टिमाइज़ेशन आधुनिक बड़े पैमाने पर सुदृढीकरण सीखने का केंद्र बन गया।

Key figures

Ronald Williams
Richard Sutton
David Silver

Seminal works

sutton2018
silver2016
williams1992

Frequently asked questions

वैल्यू फंक्शन के बजाय पॉलिसी को सीधे क्यों अनुकूलित करें?: प्रत्यक्ष पॉलिसी ऑप्टिमाइज़ेशन स्वाभाविक रूप से स्टोकेस्टिक पॉलिसी और निरंतर क्रिया स्थानों को संभालता है, जहाँ वैल्यू फंक्शन से पॉलिसी निकालना मुश्किल होता है। यह व्यवहार में सहज, वृद्धिशील सुधार की भी अनुमति देता है, जो नियंत्रण और रोबोटिक्स कार्यों के लिए उपयुक्त है।
एक्टर-क्रिटिक विधि क्या है?: एक एक्टर-क्रिटिक विधि दो सीखे हुए घटकों को बनाए रखती है: एक एक्टर, वह पॉलिसी जो क्रियाओं का चयन करती है, और एक क्रिटिक, एक वैल्यू अनुमान जो यह तय करता है कि वे क्रियाएँ कितनी अच्छी थीं। क्रिटिक की प्रतिक्रिया पॉलिसी अपडेट के विचरण को कम करती है, जिससे सीखना अधिक स्थिर होता है।