अस्थायी-अंतर शिक्षण किससे बूटस्ट्रैप करता है?

यह वर्तमान अवस्था के मूल्य को देखे गए प्रतिफल और अगली अवस्था के मूल्य के अपने स्वयं के अनुमान का उपयोग करके अद्यतन करता है। क्योंकि यह अंतिम परिणाम की प्रतीक्षा करने के बजाय आंशिक रूप से दूसरे अनुमान पर निर्भर करता है, यह ऑनलाइन और अधूरे एपिसोड से सीख सकता है।

क्यू-लर्निंग को ऑफ-पॉलिसी क्यों कहा जाता है?

क्यू-लर्निंग इष्टतम नीति के मूल्य को तब भी सीखता है जब एजेंट अनुभव एकत्र करने के लिए एक अलग, अन्वेषण नीति का पालन करता है। डेटा एकत्र करने के लिए उपयोग किया जाने वाला व्यवहार और मूल्यांकन की जा रही नीति भिन्न हो सकती है, जिसका अर्थ ऑफ-पॉलिसी है।

मूल्य-आधारित विधियाँ

मूल्य-आधारित विधियाँ यह सीखती हैं कि अवस्थाएँ और क्रियाएँ कितनी अच्छी हैं, फिर एक अच्छी नीति प्राप्त करने के लिए उन अनुमानों के संबंध में लालची (greedy) तरीके से कार्य करती हैं।

PaperMind से विषय खोजेंजल्द हीFind papers & topics

Tools & resources

स्लाइड डाउनलोड करें

Learn & explore

वीडियोजल्द ही

Definition

मूल्य-आधारित विधियाँ अवस्थाओं या अवस्था-क्रिया युग्मों के अपेक्षित प्रतिफल का अनुमान लगाती हैं और उच्चतम अनुमानित मूल्य वाली क्रियाओं का चयन करके एक नीति प्राप्त करती हैं; वे अनुभव से इन अनुमानों को वृद्धिशील रूप से सीखती हैं, अक्सर अस्थायी-अंतर अपडेट द्वारा जो एक भविष्यवाणी को बाद के, अधिक सूचित अनुमान की ओर समायोजित करते हैं।

Scope

यह विषय सुदृढीकरण-शिक्षण एल्गोरिदम को शामिल करता है जो मूल्य कार्यों पर केंद्रित हैं: पूर्ण एपिसोड से मोंटे कार्लो अनुमान, अस्थायी-अंतर शिक्षण जो बाद के अनुमानों से बूटस्ट्रैप करता है, और नियंत्रण एल्गोरिदम सारसा (Sarsa) और क्यू-लर्निंग (Q-learning)। यह ऑन-पॉलिसी बनाम ऑफ-पॉलिसी लर्निंग, एप्सिलॉन-ग्रीडी (epsilon-greedy) जैसी रणनीतियों के माध्यम से अन्वेषण, और जब अवस्थाएँ गणना करने के लिए बहुत अधिक हों तो फ़ंक्शन सन्निकटन के उपयोग को संबोधित करता है।

Core questions

अनुभव से क्रिया मूल्यों को कैसे सीखा जाता है?
अस्थायी-अंतर शिक्षण नमूनाकरण को बूटस्ट्रैपिंग के साथ कैसे जोड़ता है?
ऑन-पॉलिसी और ऑफ-पॉलिसी लर्निंग में क्या अंतर है?
मूल्य अनुमानों पर लालची तरीके से कार्य करते समय अन्वेषण को कैसे संभाला जाता है?

Key theories

अस्थायी-अंतर शिक्षण: अस्थायी-अंतर विधियाँ एक मूल्य अनुमान को देखे गए प्रतिफल और अगली अवस्था के रियायती अनुमान की ओर अद्यतन करती हैं, पर्यावरण के मॉडल के बिना अधूरे एपिसोड से ऑनलाइन सीखती हैं।
क्यू-लर्निंग: क्यू-लर्निंग प्रत्येक अवस्था में सर्वोत्तम क्रिया के मूल्य का अनुमान लगाती है और अनुभव एकत्र करने के लिए उपयोग की जाने वाली नीति की परवाह किए बिना इष्टतम क्रिया-मूल्य फ़ंक्शन में परिवर्तित होती है, जिससे यह एक मूलभूत ऑफ-पॉलिसी विधि बन जाती है।
डीप नेटवर्क के साथ मूल्य सन्निकटन: डीप नेटवर्क के साथ क्रिया-मूल्य फ़ंक्शन का प्रतिनिधित्व करने से मूल्य-आधारित विधियों को कच्चे पिक्सेल जैसे उच्च-आयामी इनपुट को संभालने की अनुमति मिलती है, जैसा कि डीप क्यू-नेटवर्क में है जिसने कई अटारी गेम खेलना सीखा।

Clinical relevance

मूल्य-आधारित विधियाँ सबसे व्यापक रूप से उपयोग किए जाने वाले सुदृढीकरण-शिक्षण एल्गोरिदम में से हैं, और डीप नेटवर्क के साथ संयुक्त क्यू-लर्निंग ने उच्च-आयामी संवेदी इनपुट से सीधे मानव-स्तर के प्रदर्शन तक पहुँचने वाले पहले एजेंटों का उत्पादन किया, यह दर्शाता है कि मूल्य अनुमान जटिल कार्यों तक कैसे बढ़ता है।

History

सटन ने 1988 में अस्थायी-अंतर शिक्षण की शुरुआत की, और वाटकिंस के 1989 के क्यू-लर्निंग ने एक अभिसारी ऑफ-पॉलिसी नियंत्रण विधि दी। 2015 के डीप क्यू-नेटवर्क में डीप नेटवर्क के साथ क्यू-लर्निंग के संयोजन ने मूल्य-आधारित सुदृढीकरण शिक्षण को उच्च-आयामी समस्याओं तक पहुँचाया और आधुनिक डीप सुदृढीकरण-शिक्षण युग की शुरुआत की।

Key figures

Richard Sutton
Christopher Watkins
Volodymyr Mnih

Seminal works

sutton2018
mnih2015
watkins1992

Frequently asked questions

अस्थायी-अंतर शिक्षण किससे बूटस्ट्रैप करता है?: यह वर्तमान अवस्था के मूल्य को देखे गए प्रतिफल और अगली अवस्था के मूल्य के अपने स्वयं के अनुमान का उपयोग करके अद्यतन करता है। क्योंकि यह अंतिम परिणाम की प्रतीक्षा करने के बजाय आंशिक रूप से दूसरे अनुमान पर निर्भर करता है, यह ऑनलाइन और अधूरे एपिसोड से सीख सकता है।
क्यू-लर्निंग को ऑफ-पॉलिसी क्यों कहा जाता है?: क्यू-लर्निंग इष्टतम नीति के मूल्य को तब भी सीखता है जब एजेंट अनुभव एकत्र करने के लिए एक अलग, अन्वेषण नीति का पालन करता है। डेटा एकत्र करने के लिए उपयोग किया जाने वाला व्यवहार और मूल्यांकन की जा रही नीति भिन्न हो सकती है, जिसका अर्थ ऑफ-पॉलिसी है।