मूल्य-आधारित विधियाँ
मूल्य-आधारित विधियाँ यह सीखती हैं कि अवस्थाएँ और क्रियाएँ कितनी अच्छी हैं, फिर एक अच्छी नीति प्राप्त करने के लिए उन अनुमानों के संबंध में लालची (greedy) तरीके से कार्य करती हैं।
Definition
मूल्य-आधारित विधियाँ अवस्थाओं या अवस्था-क्रिया युग्मों के अपेक्षित प्रतिफल का अनुमान लगाती हैं और उच्चतम अनुमानित मूल्य वाली क्रियाओं का चयन करके एक नीति प्राप्त करती हैं; वे अनुभव से इन अनुमानों को वृद्धिशील रूप से सीखती हैं, अक्सर अस्थायी-अंतर अपडेट द्वारा जो एक भविष्यवाणी को बाद के, अधिक सूचित अनुमान की ओर समायोजित करते हैं।
Scope
यह विषय सुदृढीकरण-शिक्षण एल्गोरिदम को शामिल करता है जो मूल्य कार्यों पर केंद्रित हैं: पूर्ण एपिसोड से मोंटे कार्लो अनुमान, अस्थायी-अंतर शिक्षण जो बाद के अनुमानों से बूटस्ट्रैप करता है, और नियंत्रण एल्गोरिदम सारसा (Sarsa) और क्यू-लर्निंग (Q-learning)। यह ऑन-पॉलिसी बनाम ऑफ-पॉलिसी लर्निंग, एप्सिलॉन-ग्रीडी (epsilon-greedy) जैसी रणनीतियों के माध्यम से अन्वेषण, और जब अवस्थाएँ गणना करने के लिए बहुत अधिक हों तो फ़ंक्शन सन्निकटन के उपयोग को संबोधित करता है।
Core questions
- अनुभव से क्रिया मूल्यों को कैसे सीखा जाता है?
- अस्थायी-अंतर शिक्षण नमूनाकरण को बूटस्ट्रैपिंग के साथ कैसे जोड़ता है?
- ऑन-पॉलिसी और ऑफ-पॉलिसी लर्निंग में क्या अंतर है?
- मूल्य अनुमानों पर लालची तरीके से कार्य करते समय अन्वेषण को कैसे संभाला जाता है?
Key theories
- अस्थायी-अंतर शिक्षण
- अस्थायी-अंतर विधियाँ एक मूल्य अनुमान को देखे गए प्रतिफल और अगली अवस्था के रियायती अनुमान की ओर अद्यतन करती हैं, पर्यावरण के मॉडल के बिना अधूरे एपिसोड से ऑनलाइन सीखती हैं।
- क्यू-लर्निंग
- क्यू-लर्निंग प्रत्येक अवस्था में सर्वोत्तम क्रिया के मूल्य का अनुमान लगाती है और अनुभव एकत्र करने के लिए उपयोग की जाने वाली नीति की परवाह किए बिना इष्टतम क्रिया-मूल्य फ़ंक्शन में परिवर्तित होती है, जिससे यह एक मूलभूत ऑफ-पॉलिसी विधि बन जाती है।
- डीप नेटवर्क के साथ मूल्य सन्निकटन
- डीप नेटवर्क के साथ क्रिया-मूल्य फ़ंक्शन का प्रतिनिधित्व करने से मूल्य-आधारित विधियों को कच्चे पिक्सेल जैसे उच्च-आयामी इनपुट को संभालने की अनुमति मिलती है, जैसा कि डीप क्यू-नेटवर्क में है जिसने कई अटारी गेम खेलना सीखा।
Clinical relevance
मूल्य-आधारित विधियाँ सबसे व्यापक रूप से उपयोग किए जाने वाले सुदृढीकरण-शिक्षण एल्गोरिदम में से हैं, और डीप नेटवर्क के साथ संयुक्त क्यू-लर्निंग ने उच्च-आयामी संवेदी इनपुट से सीधे मानव-स्तर के प्रदर्शन तक पहुँचने वाले पहले एजेंटों का उत्पादन किया, यह दर्शाता है कि मूल्य अनुमान जटिल कार्यों तक कैसे बढ़ता है।
History
सटन ने 1988 में अस्थायी-अंतर शिक्षण की शुरुआत की, और वाटकिंस के 1989 के क्यू-लर्निंग ने एक अभिसारी ऑफ-पॉलिसी नियंत्रण विधि दी। 2015 के डीप क्यू-नेटवर्क में डीप नेटवर्क के साथ क्यू-लर्निंग के संयोजन ने मूल्य-आधारित सुदृढीकरण शिक्षण को उच्च-आयामी समस्याओं तक पहुँचाया और आधुनिक डीप सुदृढीकरण-शिक्षण युग की शुरुआत की।
Key figures
- Richard Sutton
- Christopher Watkins
- Volodymyr Mnih
Related topics
Seminal works
- sutton2018
- mnih2015
- watkins1992
Frequently asked questions
- अस्थायी-अंतर शिक्षण किससे बूटस्ट्रैप करता है?
- यह वर्तमान अवस्था के मूल्य को देखे गए प्रतिफल और अगली अवस्था के मूल्य के अपने स्वयं के अनुमान का उपयोग करके अद्यतन करता है। क्योंकि यह अंतिम परिणाम की प्रतीक्षा करने के बजाय आंशिक रूप से दूसरे अनुमान पर निर्भर करता है, यह ऑनलाइन और अधूरे एपिसोड से सीख सकता है।
- क्यू-लर्निंग को ऑफ-पॉलिसी क्यों कहा जाता है?
- क्यू-लर्निंग इष्टतम नीति के मूल्य को तब भी सीखता है जब एजेंट अनुभव एकत्र करने के लिए एक अलग, अन्वेषण नीति का पालन करता है। डेटा एकत्र करने के लिए उपयोग किया जाने वाला व्यवहार और मूल्यांकन की जा रही नीति भिन्न हो सकती है, जिसका अर्थ ऑफ-पॉलिसी है।