Machine learningReinforcement learning

Q-Learning

Q-learning, যা ১৯৯২ সালে Christopher Watkins এবং Peter Dayan প্রবর্তন করেন, এটি একটি মডেল-মুক্ত রিইনফোর্সমেন্ট-লার্নিং অ্যালগরিদম যা পরিবেশের কোনো মডেল ছাড়াই শুধুমাত্র অভিজ্ঞতা থেকে প্রতিটি অবস্থায় প্রতিটি ক্রিয়া সম্পাদনের মান (Q-function) শেখে। এটি অফ-পলিসি: এটি একটি অনুসন্ধানমূলক আচরণ নীতি অনুসরণ করার সময় সর্বোত্তম ক্রিয়া-মান শেখে এবং সাধারণ অবস্থায় এটি প্রমাণিতভাবে সর্বোত্তম নীতিতে অভিসারী হয়।

MethodMind-এ খুলুনশীঘ্রইভিডিওশীঘ্রইDownload slides

পুরো পদ্ধতিটি পড়ুন

শুধু সদস্যদের জন্য

এই অংশটি পড়তে বিনামূল্যের অ্যাকাউন্ট দিয়ে সাইন ইন করুন।

সাইন ইন করুন

Method map

The neighbourhood of related methods — select a node to explore.

Q-Learning

গভীর শক্তিশালীকরণ শিক্ষা ডায়নামিক প্রোগ্রামিং পলিসি গ্রেডিয়েন্ট পদ্ধতি

উৎস

Watkins, C. J. C. H., & Dayan, P. (1992). Q-learning. Machine Learning, 8(3–4), 279–292. DOI: 10.1007/BF00992698 ↗
Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6

এই পৃষ্ঠা কীভাবে উদ্ধৃত করবেন

ScholarGate. (2026, June 2). Q-Learning (Off-Policy Temporal-Difference Control). ScholarGate. https://scholargate.app/bn/machine-learning/q-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

গভীর শক্তিশালীকরণ শিক্ষাগভীর শিখন↔ compare
ডায়নামিক প্রোগ্রামিংঅনুকূলকরণ↔ compare
পলিসি গ্রেডিয়েন্ট পদ্ধতিযন্ত্র শিখন↔ compare

Compare side by side →

যেখানে উদ্ধৃত

পলিসি গ্রেডিয়েন্ট পদ্ধতি

এই পৃষ্ঠায় কোনো ত্রুটি চোখে পড়েছে? জানান বা সংশোধনের প্রস্তাব দিন →