Machine learningDeep learning / NLP / CV

Слабо контролирано обучение с подкрепление

Слабо контролираното обучение с подкрепление (WSRL) обучава агенти в среди, където сигналът за награда е непълен, рядък, забавен или само частично информативен — за разлика от плътното напълно контролирано RL. Агентът трябва да научи ефективни политики въпреки непълната обратна връзка, като използва спомагателни сигнали, моделиране на награди или обучение чрез предпочитания, за да компенсира слабото наблюдение.

Отворете в MethodMindСкороВидеоСкороDownload slides

Прочетете целия метод

Само за членове

Влезте с безплатен профил, за да прочетете този раздел.

Вход

Method map

The neighbourhood of related methods — select a node to explore.

Слабо контролирано обучение с подкрепление

Обучение с подкрепление Самообучаващо се подсилв…Полу-наблюдавано обучени…

Източници

Sutton, R. S. & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6
Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S. & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems (NeurIPS), 30. link ↗

Как да цитирате тази страница

ScholarGate. (2026, June 3). Weakly Supervised Reinforcement Learning. ScholarGate. https://scholargate.app/bg/deep-learning/weakly-supervised-reinforcement-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Обучение с подкреплениеДълбоко обучение↔ compare
Самообучаващо се подсилващо обучениеДълбоко обучение↔ compare
Полу-наблюдавано обучение с подсилванеДълбоко обучение↔ compare

Compare side by side →

Цитиран в

Полу-наблюдавано обучение с подсилване

Забелязахте ли проблем на тази страница? Съобщете или предложете поправка →