ScholarGate
सहायक

मूल्य-आधारित विधियाँ

मूल्य-आधारित विधियाँ यह सीखती हैं कि अवस्थाएँ और क्रियाएँ कितनी अच्छी हैं, फिर एक अच्छी नीति प्राप्त करने के लिए उन अनुमानों के संबंध में लालची (greedy) तरीके से कार्य करती हैं।

PaperMind से विषय खोजेंजल्द हीFind papers & topics
Tools & resources
स्लाइड डाउनलोड करें
Learn & explore
वीडियोजल्द ही

Definition

मूल्य-आधारित विधियाँ अवस्थाओं या अवस्था-क्रिया युग्मों के अपेक्षित प्रतिफल का अनुमान लगाती हैं और उच्चतम अनुमानित मूल्य वाली क्रियाओं का चयन करके एक नीति प्राप्त करती हैं; वे अनुभव से इन अनुमानों को वृद्धिशील रूप से सीखती हैं, अक्सर अस्थायी-अंतर अपडेट द्वारा जो एक भविष्यवाणी को बाद के, अधिक सूचित अनुमान की ओर समायोजित करते हैं।

Scope

यह विषय सुदृढीकरण-शिक्षण एल्गोरिदम को शामिल करता है जो मूल्य कार्यों पर केंद्रित हैं: पूर्ण एपिसोड से मोंटे कार्लो अनुमान, अस्थायी-अंतर शिक्षण जो बाद के अनुमानों से बूटस्ट्रैप करता है, और नियंत्रण एल्गोरिदम सारसा (Sarsa) और क्यू-लर्निंग (Q-learning)। यह ऑन-पॉलिसी बनाम ऑफ-पॉलिसी लर्निंग, एप्सिलॉन-ग्रीडी (epsilon-greedy) जैसी रणनीतियों के माध्यम से अन्वेषण, और जब अवस्थाएँ गणना करने के लिए बहुत अधिक हों तो फ़ंक्शन सन्निकटन के उपयोग को संबोधित करता है।

Core questions

  • अनुभव से क्रिया मूल्यों को कैसे सीखा जाता है?
  • अस्थायी-अंतर शिक्षण नमूनाकरण को बूटस्ट्रैपिंग के साथ कैसे जोड़ता है?
  • ऑन-पॉलिसी और ऑफ-पॉलिसी लर्निंग में क्या अंतर है?
  • मूल्य अनुमानों पर लालची तरीके से कार्य करते समय अन्वेषण को कैसे संभाला जाता है?

Key theories

अस्थायी-अंतर शिक्षण
अस्थायी-अंतर विधियाँ एक मूल्य अनुमान को देखे गए प्रतिफल और अगली अवस्था के रियायती अनुमान की ओर अद्यतन करती हैं, पर्यावरण के मॉडल के बिना अधूरे एपिसोड से ऑनलाइन सीखती हैं।
क्यू-लर्निंग
क्यू-लर्निंग प्रत्येक अवस्था में सर्वोत्तम क्रिया के मूल्य का अनुमान लगाती है और अनुभव एकत्र करने के लिए उपयोग की जाने वाली नीति की परवाह किए बिना इष्टतम क्रिया-मूल्य फ़ंक्शन में परिवर्तित होती है, जिससे यह एक मूलभूत ऑफ-पॉलिसी विधि बन जाती है।
डीप नेटवर्क के साथ मूल्य सन्निकटन
डीप नेटवर्क के साथ क्रिया-मूल्य फ़ंक्शन का प्रतिनिधित्व करने से मूल्य-आधारित विधियों को कच्चे पिक्सेल जैसे उच्च-आयामी इनपुट को संभालने की अनुमति मिलती है, जैसा कि डीप क्यू-नेटवर्क में है जिसने कई अटारी गेम खेलना सीखा।

Clinical relevance

मूल्य-आधारित विधियाँ सबसे व्यापक रूप से उपयोग किए जाने वाले सुदृढीकरण-शिक्षण एल्गोरिदम में से हैं, और डीप नेटवर्क के साथ संयुक्त क्यू-लर्निंग ने उच्च-आयामी संवेदी इनपुट से सीधे मानव-स्तर के प्रदर्शन तक पहुँचने वाले पहले एजेंटों का उत्पादन किया, यह दर्शाता है कि मूल्य अनुमान जटिल कार्यों तक कैसे बढ़ता है।

History

सटन ने 1988 में अस्थायी-अंतर शिक्षण की शुरुआत की, और वाटकिंस के 1989 के क्यू-लर्निंग ने एक अभिसारी ऑफ-पॉलिसी नियंत्रण विधि दी। 2015 के डीप क्यू-नेटवर्क में डीप नेटवर्क के साथ क्यू-लर्निंग के संयोजन ने मूल्य-आधारित सुदृढीकरण शिक्षण को उच्च-आयामी समस्याओं तक पहुँचाया और आधुनिक डीप सुदृढीकरण-शिक्षण युग की शुरुआत की।

Key figures

  • Richard Sutton
  • Christopher Watkins
  • Volodymyr Mnih

Related topics

Seminal works

  • sutton2018
  • mnih2015
  • watkins1992

Frequently asked questions

अस्थायी-अंतर शिक्षण किससे बूटस्ट्रैप करता है?
यह वर्तमान अवस्था के मूल्य को देखे गए प्रतिफल और अगली अवस्था के मूल्य के अपने स्वयं के अनुमान का उपयोग करके अद्यतन करता है। क्योंकि यह अंतिम परिणाम की प्रतीक्षा करने के बजाय आंशिक रूप से दूसरे अनुमान पर निर्भर करता है, यह ऑनलाइन और अधूरे एपिसोड से सीख सकता है।
क्यू-लर्निंग को ऑफ-पॉलिसी क्यों कहा जाता है?
क्यू-लर्निंग इष्टतम नीति के मूल्य को तब भी सीखता है जब एजेंट अनुभव एकत्र करने के लिए एक अलग, अन्वेषण नीति का पालन करता है। डेटा एकत्र करने के लिए उपयोग किया जाने वाला व्यवहार और मूल्यांकन की जा रही नीति भिन्न हो सकती है, जिसका अर्थ ऑफ-पॉलिसी है।

Methods for this concept

Related concepts