Глибоке навчання з підкріпленням
Глибоке навчання з підкріпленням поєднує нейронні мережі з навчанням з підкріпленням, щоб агент навчався шляхом взаємодії з середовищем. Цей підхід був популяризований роботою Мніха та його колег 2015 року в журналі Nature щодо контролю в іграх Atari на рівні людини. Замість навчання на фіксованому наборі мічених даних, агент виконує дії, спостерігає за винагородами та поступово формує політику, яка максимізує довгострокову віддачу.
Читати метод повністю
Увійдіть із безкоштовним обліковим записом, щоб прочитати цей розділ.
Method map
The neighbourhood of related methods — select a node to explore.
Джерела
- Mnih, V. et al. (2015). Human-Level Control through Deep Reinforcement Learning. Nature, 518, 529–533. DOI: 10.1038/nature14236 ↗
- Schulman, J. et al. (2017). Proximal Policy Optimization Algorithms. arXiv:1707.06347. link ↗
Як цитувати цю сторінку
ScholarGate. (2026, June 1). Deep Reinforcement Learning (DQN / PPO / A3C). ScholarGate. https://scholargate.app/uk/deep-learning/deep-reinforcement-learning
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Нейронний пошук архітектурГлибоке навчання↔ compare
- Випадковий лісМашинне навчання↔ compare
- Рекурентна нейронна мережаГлибоке навчання↔ compare
- XGBoostМашинне навчання↔ compare
Згадується в
Помітили помилку на цій сторінці? Повідомте про неї або запропонуйте виправлення →