Machine learningReinforcement learning

Q-Learning

Q-learning, যা ১৯৯২ সালে Christopher Watkins এবং Peter Dayan প্রবর্তন করেন, এটি একটি মডেল-মুক্ত রিইনফোর্সমেন্ট-লার্নিং অ্যালগরিদম যা পরিবেশের কোনো মডেল ছাড়াই শুধুমাত্র অভিজ্ঞতা থেকে প্রতিটি অবস্থায় প্রতিটি ক্রিয়া সম্পাদনের মান (Q-function) শেখে। এটি অফ-পলিসি: এটি একটি অনুসন্ধানমূলক আচরণ নীতি অনুসরণ করার সময় সর্বোত্তম ক্রিয়া-মান শেখে এবং সাধারণ অবস্থায় এটি প্রমাণিতভাবে সর্বোত্তম নীতিতে অভিসারী হয়।

MethodMind-এ খুলুনশীঘ্রইভিডিওশীঘ্রইDownload slides

পুরো পদ্ধতিটি পড়ুন

শুধু সদস্যদের জন্য

এই অংশটি পড়তে বিনামূল্যের অ্যাকাউন্ট দিয়ে সাইন ইন করুন।

সাইন ইন করুন

Method map

The neighbourhood of related methods — select a node to explore.

উৎস

  1. Watkins, C. J. C. H., & Dayan, P. (1992). Q-learning. Machine Learning, 8(3–4), 279–292. DOI: 10.1007/BF00992698
  2. Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6

এই পৃষ্ঠা কীভাবে উদ্ধৃত করবেন

ScholarGate. (2026, June 2). Q-Learning (Off-Policy Temporal-Difference Control). ScholarGate. https://scholargate.app/bn/machine-learning/q-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

যেখানে উদ্ধৃত

ScholarGateQ-Learning (Q-Learning (Off-Policy Temporal-Difference Control)). 2026-06-15 তারিখে সংগৃহীত, উৎস: https://scholargate.app/bn/machine-learning/q-learning · ডেটাসেট: https://doi.org/10.5281/zenodo.20539026