ScholarGate
सहायक
Machine learningReinforcement learning

क्यू-लर्निंग

क्रिस्टोफर वॉटकिन्स और पीटर डायन द्वारा 1992 में प्रस्तुत क्यू-लर्निंग एक मॉडल-मुक्त सुदृढीकरण-शिक्षण एल्गोरिथम है जो पर्यावरण के मॉडल के बिना, पूरी तरह से अनुभव से प्रत्येक स्थिति में प्रत्येक क्रिया को करने के मूल्य — क्यू-फंक्शन — को सीखता है। यह ऑफ-पॉलिसी है: यह एक अन्वेषी व्यवहार नीति का पालन करते हुए इष्टतम क्रिया-मूल्यों को सीखता है, और मानक परिस्थितियों में यह सिद्ध रूप से इष्टतम नीति में परिवर्तित होता है।

MethodMind में खोलेंजल्द हीवीडियोजल्द हीस्लाइड डाउनलोड करें

पूरी विधि पढ़ें

केवल सदस्यों के लिए

यह खंड पढ़ने के लिए निःशुल्क खाते से साइन इन करें।

साइन इन करें

पद्धति मानचित्र

सम्बन्धित पद्धतियों का परिवेश — अन्वेषण हेतु किसी नोड का चयन करें।

स्रोत

  1. Watkins, C. J. C. H., & Dayan, P. (1992). Q-learning. Machine Learning, 8(3–4), 279–292. DOI: 10.1007/BF00992698
  2. Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6

इस पृष्ठ का उद्धरण कैसे दें

ScholarGate. (2026, June 2). Q-Learning (Off-Policy Temporal-Difference Control). ScholarGate. https://scholargate.app/hi/machine-learning/q-learning

कौन-सी पद्धति?

इस पद्धति को उसकी निकटतम सजातीय पद्धतियों के साथ रखकर उन्हें साथ-साथ पढ़ें — पुस्तकालय पुस्तकें मेज़ पर रख देता है; चुनाव आपका है।

साथ-साथ तुलना करें

इनमें संदर्भित

ScholarGateQ-Learning (Q-Learning (Off-Policy Temporal-Difference Control)). 2026-06-15 को यहाँ से प्राप्त https://scholargate.app/hi/machine-learning/q-learning · डेटासेट: https://doi.org/10.5281/zenodo.20539026