Слабо контролируемое обучение с подкреплением
Слабо контролируемое обучение с подкреплением (WSRL) обучает агентов в средах, где сигнал вознаграждения является неточным, разреженным, отложенным или лишь частично информативным — в отличие от плотного полностью контролируемого RL. Агент должен научиться эффективным стратегиям, несмотря на неполную обратную связь, используя вспомогательные сигналы, моделирование вознаграждения или обучение предпочтениям для компенсации слабого контроля.
Читать метод полностью
Войдите с бесплатным аккаунтом, чтобы прочитать этот раздел.
Method map
The neighbourhood of related methods — select a node to explore.
Источники
- Sutton, R. S. & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6
- Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S. & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems (NeurIPS), 30. link ↗
Как цитировать эту страницу
ScholarGate. (2026, June 3). Weakly Supervised Reinforcement Learning. ScholarGate. https://scholargate.app/ru/deep-learning/weakly-supervised-reinforcement-learning
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Обучение с подкреплениемГлубокое обучение↔ compare
- Самообучающееся обучение с подкреплениемГлубокое обучение↔ compare
- Обучение с подкреплением с частичным привлечением учителяГлубокое обучение↔ compare
Упоминается в
Нашли ошибку на этой странице? Сообщите о ней или предложите исправление →