Machine learningReinforcement learning

क्यू-लर्निंग

क्रिस्टोफर वॉटकिन्स और पीटर डायन द्वारा 1992 में प्रस्तुत क्यू-लर्निंग एक मॉडल-मुक्त सुदृढीकरण-शिक्षण एल्गोरिथम है जो पर्यावरण के मॉडल के बिना, पूरी तरह से अनुभव से प्रत्येक स्थिति में प्रत्येक क्रिया को करने के मूल्य — क्यू-फंक्शन — को सीखता है। यह ऑफ-पॉलिसी है: यह एक अन्वेषी व्यवहार नीति का पालन करते हुए इष्टतम क्रिया-मूल्यों को सीखता है, और मानक परिस्थितियों में यह सिद्ध रूप से इष्टतम नीति में परिवर्तित होता है।

MethodMind में खोलेंजल्द हीवीडियोजल्द हीस्लाइड डाउनलोड करें

पूरी विधि पढ़ें

केवल सदस्यों के लिए

यह खंड पढ़ने के लिए निःशुल्क खाते से साइन इन करें।

साइन इन करें

पद्धति मानचित्र

सम्बन्धित पद्धतियों का परिवेश — अन्वेषण हेतु किसी नोड का चयन करें।

क्यू-लर्निंग

डीप रीइन्फोर्समेंट लर्नि…Dynamic Programming पॉलिसी ग्रेडिएंट पद्धतिय…

स्रोत

Watkins, C. J. C. H., & Dayan, P. (1992). Q-learning. Machine Learning, 8(3–4), 279–292. DOI: 10.1007/BF00992698 ↗
Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6

इस पृष्ठ का उद्धरण कैसे दें

ScholarGate. (2026, June 2). Q-Learning (Off-Policy Temporal-Difference Control). ScholarGate. https://scholargate.app/hi/machine-learning/q-learning

कौन-सी पद्धति?

इस पद्धति को उसकी निकटतम सजातीय पद्धतियों के साथ रखकर उन्हें साथ-साथ पढ़ें — पुस्तकालय पुस्तकें मेज़ पर रख देता है; चुनाव आपका है।

डीप रीइन्फोर्समेंट लर्निंगगहन अधिगम↔ तुलना करें
Dynamic Programmingअनुकूलन↔ तुलना करें
पॉलिसी ग्रेडिएंट पद्धतियाँमशीन अधिगम↔ तुलना करें

साथ-साथ तुलना करें →

इनमें संदर्भित

पॉलिसी ग्रेडिएंट पद्धतियाँ

इस पृष्ठ पर कोई त्रुटि दिखी? सूचित करें या सुधार सुझाएँ →