Machine learningDeep learning / NLP / CV

یادگیری تقویتی

یادگیری تقویتی (RL) چارچوبی است که در آن یک عامل با تعامل با محیط، دریافت سیگنال‌های پاداش اسکالر، و به‌روزرسانی یک سیاست برای حداکثر کردن پاداش تجمعی آینده، تصمیم‌گیری‌های متوالی را یاد می‌گیرد. برخلاف یادگیری نظارت‌شده، هیچ مثال برچسب‌دار ارائه نمی‌شود؛ عامل رفتار بهینه را کاملاً از طریق تجربه و بازخورد تأخیری کشف می‌کند.

باز کردن در MethodMindبه‌زودیویدیوبه‌زودیDownload slides

مطالعهٔ کامل روش

ویژهٔ اعضا

برای خواندن این بخش با حساب رایگان وارد شوید.

ورود

Method map

The neighbourhood of related methods — select a node to explore.

+2 more

منابع

  1. Sutton, R. S. & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6
  2. Mnih, V., Kavukcuoglu, K., Silver, D., et al. (2015). Human-level control through deep reinforcement learning. Nature, 518, 529–533. DOI: 10.1038/nature14236

نحوهٔ استناد به این صفحه

ScholarGate. (2026, June 3). Reinforcement Learning (Agent-Environment Reward Optimization). ScholarGate. https://scholargate.app/fa/deep-learning/reinforcement-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

ارجاع‌شده در

ScholarGateReinforcement Learning (Reinforcement Learning (Agent-Environment Reward Optimization)). بازیابی‌شده در 2026-06-15 از https://scholargate.app/fa/deep-learning/reinforcement-learning · مجموعه‌داده: https://doi.org/10.5281/zenodo.20539026