Machine learningDeep learning / NLP / CV

یادگیری تقویتی

یادگیری تقویتی (RL) چارچوبی است که در آن یک عامل با تعامل با محیط، دریافت سیگنال‌های پاداش اسکالر، و به‌روزرسانی یک سیاست برای حداکثر کردن پاداش تجمعی آینده، تصمیم‌گیری‌های متوالی را یاد می‌گیرد. برخلاف یادگیری نظارت‌شده، هیچ مثال برچسب‌دار ارائه نمی‌شود؛ عامل رفتار بهینه را کاملاً از طریق تجربه و بازخورد تأخیری کشف می‌کند.

باز کردن در MethodMindبه‌زودیویدیوبه‌زودیDownload slides

مطالعهٔ کامل روش

ویژهٔ اعضا

برای خواندن این بخش با حساب رایگان وارد شوید.

ورود

Method map

The neighbourhood of related methods — select a node to explore.

یادگیری تقویتی

روش‌های گرادیان خط‌مشی شبکه عصبی بازگشتی برنامه‌ریزی پویا مبتنی ب…برنامه‌ریزی پویا بیزی یادگیری تقویتی قابل توضیح یادگیری تقویتی تنظیم‌شده…یادگیری تقویتی چندزبانه یادگیری تقویتی چندوجهی (…یادگیری تقویتی خودنظارتی یادگیری تقویتی نیمه‌نظار…

+2 more

منابع

Sutton, R. S. & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6
Mnih, V., Kavukcuoglu, K., Silver, D., et al. (2015). Human-level control through deep reinforcement learning. Nature, 518, 529–533. DOI: 10.1038/nature14236 ↗

نحوهٔ استناد به این صفحه

ScholarGate. (2026, June 3). Reinforcement Learning (Agent-Environment Reward Optimization). ScholarGate. https://scholargate.app/fa/deep-learning/reinforcement-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

روش‌های گرادیان خط‌مشییادگیری ماشین↔ compare
شبکه عصبی بازگشتییادگیری عمیق↔ compare

Compare side by side →

ارجاع‌شده در

در این صفحه مشکلی دیدید؟ گزارش دهید یا اصلاحی پیشنهاد کنید →