ScholarGate
Асистент
Machine learningDeep learning / NLP / CV

Слабо контрольоване навчання з підкріпленням

Слабо контрольоване навчання з підкріпленням (WSRL) навчає агентів у середовищах, де сигнал винагороди є недосконалим, розрідженим, затриманим або лише частково інформативним — на відміну від щільного повністю контрольованого RL. Агент повинен навчитися ефективним політикам, незважаючи на неповний зворотний зв'язок, використовуючи допоміжні сигнали, моделювання винагороди або навчання на основі уподобань для компенсації слабкого контролю.

Відкрити у MethodMindНезабаромВідеоНезабаромDownload slides

Читати метод повністю

Лише для учасників

Увійдіть із безкоштовним обліковим записом, щоб прочитати цей розділ.

Увійти

Method map

The neighbourhood of related methods — select a node to explore.

Джерела

  1. Sutton, R. S. & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6
  2. Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S. & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems (NeurIPS), 30. link

Як цитувати цю сторінку

ScholarGate. (2026, June 3). Weakly Supervised Reinforcement Learning. ScholarGate. https://scholargate.app/uk/deep-learning/weakly-supervised-reinforcement-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Згадується в

ScholarGateWeakly supervised reinforcement learning (Weakly Supervised Reinforcement Learning). Отримано 2026-06-15 з https://scholargate.app/uk/deep-learning/weakly-supervised-reinforcement-learning · Набір даних: https://doi.org/10.5281/zenodo.20539026