Q-Learning
Q-learning, যা ১৯৯২ সালে Christopher Watkins এবং Peter Dayan প্রবর্তন করেন, এটি একটি মডেল-মুক্ত রিইনফোর্সমেন্ট-লার্নিং অ্যালগরিদম যা পরিবেশের কোনো মডেল ছাড়াই শুধুমাত্র অভিজ্ঞতা থেকে প্রতিটি অবস্থায় প্রতিটি ক্রিয়া সম্পাদনের মান (Q-function) শেখে। এটি অফ-পলিসি: এটি একটি অনুসন্ধানমূলক আচরণ নীতি অনুসরণ করার সময় সর্বোত্তম ক্রিয়া-মান শেখে এবং সাধারণ অবস্থায় এটি প্রমাণিতভাবে সর্বোত্তম নীতিতে অভিসারী হয়।
পুরো পদ্ধতিটি পড়ুন
এই অংশটি পড়তে বিনামূল্যের অ্যাকাউন্ট দিয়ে সাইন ইন করুন।
Method map
The neighbourhood of related methods — select a node to explore.
উৎস
- Watkins, C. J. C. H., & Dayan, P. (1992). Q-learning. Machine Learning, 8(3–4), 279–292. DOI: 10.1007/BF00992698 ↗
- Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6
এই পৃষ্ঠা কীভাবে উদ্ধৃত করবেন
ScholarGate. (2026, June 2). Q-Learning (Off-Policy Temporal-Difference Control). ScholarGate. https://scholargate.app/bn/machine-learning/q-learning
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- গভীর শক্তিশালীকরণ শিক্ষাগভীর শিখন↔ compare
- ডায়নামিক প্রোগ্রামিংঅনুকূলকরণ↔ compare
- পলিসি গ্রেডিয়েন্ট পদ্ধতিযন্ত্র শিখন↔ compare
যেখানে উদ্ধৃত
এই পৃষ্ঠায় কোনো ত্রুটি চোখে পড়েছে? জানান বা সংশোধনের প্রস্তাব দিন →