Слабо контрольоване навчання з підкріпленням
Слабо контрольоване навчання з підкріпленням (WSRL) навчає агентів у середовищах, де сигнал винагороди є недосконалим, розрідженим, затриманим або лише частково інформативним — на відміну від щільного повністю контрольованого RL. Агент повинен навчитися ефективним політикам, незважаючи на неповний зворотний зв'язок, використовуючи допоміжні сигнали, моделювання винагороди або навчання на основі уподобань для компенсації слабкого контролю.
Читати метод повністю
Увійдіть із безкоштовним обліковим записом, щоб прочитати цей розділ.
Method map
The neighbourhood of related methods — select a node to explore.
Джерела
- Sutton, R. S. & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6
- Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S. & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems (NeurIPS), 30. link ↗
Як цитувати цю сторінку
ScholarGate. (2026, June 3). Weakly Supervised Reinforcement Learning. ScholarGate. https://scholargate.app/uk/deep-learning/weakly-supervised-reinforcement-learning
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Навчання з підкріпленнямГлибоке навчання↔ compare
- Навчання з підкріпленням на основі самонавчанняГлибоке навчання↔ compare
- Напівкероване навчання з підкріпленнямГлибоке навчання↔ compare
Згадується в
Помітили помилку на цій сторінці? Повідомте про неї або запропонуйте виправлення →