Machine learningDeep learning / NLP / CV

Слабо контрольоване навчання з підкріпленням

Слабо контрольоване навчання з підкріпленням (WSRL) навчає агентів у середовищах, де сигнал винагороди є недосконалим, розрідженим, затриманим або лише частково інформативним — на відміну від щільного повністю контрольованого RL. Агент повинен навчитися ефективним політикам, незважаючи на неповний зворотний зв'язок, використовуючи допоміжні сигнали, моделювання винагороди або навчання на основі уподобань для компенсації слабкого контролю.

Відкрити у MethodMindНезабаромВідеоНезабаромDownload slides

Читати метод повністю

Лише для учасників

Увійдіть із безкоштовним обліковим записом, щоб прочитати цей розділ.

Увійти

Method map

The neighbourhood of related methods — select a node to explore.

Слабо контрольоване навчання з підкріпленням

Навчання з підкріпленням Навчання з підкріпленням…Напівкероване навчання з…

Джерела

Sutton, R. S. & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6
Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S. & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems (NeurIPS), 30. link ↗

Як цитувати цю сторінку

ScholarGate. (2026, June 3). Weakly Supervised Reinforcement Learning. ScholarGate. https://scholargate.app/uk/deep-learning/weakly-supervised-reinforcement-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Навчання з підкріпленнямГлибоке навчання↔ compare
Навчання з підкріпленням на основі самонавчанняГлибоке навчання↔ compare
Напівкероване навчання з підкріпленнямГлибоке навчання↔ compare

Compare side by side →

Згадується в

Напівкероване навчання з підкріпленням

Помітили помилку на цій сторінці? Повідомте про неї або запропонуйте виправлення →