क्यू-लर्निंग
क्रिस्टोफर वॉटकिन्स और पीटर डायन द्वारा 1992 में प्रस्तुत क्यू-लर्निंग एक मॉडल-मुक्त सुदृढीकरण-शिक्षण एल्गोरिथम है जो पर्यावरण के मॉडल के बिना, पूरी तरह से अनुभव से प्रत्येक स्थिति में प्रत्येक क्रिया को करने के मूल्य — क्यू-फंक्शन — को सीखता है। यह ऑफ-पॉलिसी है: यह एक अन्वेषी व्यवहार नीति का पालन करते हुए इष्टतम क्रिया-मूल्यों को सीखता है, और मानक परिस्थितियों में यह सिद्ध रूप से इष्टतम नीति में परिवर्तित होता है।
पूरी विधि पढ़ें
यह खंड पढ़ने के लिए निःशुल्क खाते से साइन इन करें।
पद्धति मानचित्र
सम्बन्धित पद्धतियों का परिवेश — अन्वेषण हेतु किसी नोड का चयन करें।
स्रोत
- Watkins, C. J. C. H., & Dayan, P. (1992). Q-learning. Machine Learning, 8(3–4), 279–292. DOI: 10.1007/BF00992698 ↗
- Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6
इस पृष्ठ का उद्धरण कैसे दें
ScholarGate. (2026, June 2). Q-Learning (Off-Policy Temporal-Difference Control). ScholarGate. https://scholargate.app/hi/machine-learning/q-learning
कौन-सी पद्धति?
इस पद्धति को उसकी निकटतम सजातीय पद्धतियों के साथ रखकर उन्हें साथ-साथ पढ़ें — पुस्तकालय पुस्तकें मेज़ पर रख देता है; चुनाव आपका है।
- डीप रीइन्फोर्समेंट लर्निंगगहन अधिगम↔ तुलना करें
- Dynamic Programmingअनुकूलन↔ तुलना करें
- पॉलिसी ग्रेडिएंट पद्धतियाँमशीन अधिगम↔ तुलना करें