یادگیری تقویتی عمیق
یادگیری تقویتی عمیق (Deep Reinforcement Learning) شبکههای عصبی را با یادگیری تقویتی ترکیب میکند تا یک عامل با تعامل با محیط یاد بگیرد؛ این روش با کار برجسته سال ۲۰۱۵ توسط Mnih و همکاران در مجله Nature در مورد کنترل در سطح انسانی بازیهای آتاری محبوبیت یافت. به جای یادگیری از یک مجموعه داده برچسبدار ثابت، عامل دست به اقدام میزند، پاداشها را مشاهده میکند و به تدریج سیاستی را شکل میدهد که بازده بلندمدت را به حداکثر میرساند.
مطالعهٔ کامل روش
برای خواندن این بخش با حساب رایگان وارد شوید.
Method map
The neighbourhood of related methods — select a node to explore.
منابع
- Mnih, V. et al. (2015). Human-Level Control through Deep Reinforcement Learning. Nature, 518, 529–533. DOI: 10.1038/nature14236 ↗
- Schulman, J. et al. (2017). Proximal Policy Optimization Algorithms. arXiv:1707.06347. link ↗
نحوهٔ استناد به این صفحه
ScholarGate. (2026, June 1). Deep Reinforcement Learning (DQN / PPO / A3C). ScholarGate. https://scholargate.app/fa/deep-learning/deep-reinforcement-learning
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- جستجوی معماری عصبییادگیری عمیق↔ compare
- جنگل تصادفییادگیری ماشین↔ compare
- شبکه عصبی بازگشتییادگیری عمیق↔ compare
- XGBoostیادگیری ماشین↔ compare
ارجاعشده در
در این صفحه مشکلی دیدید؟ گزارش دهید یا اصلاحی پیشنهاد کنید →