Machine learningDeep learning / NLP / CV

Слабо контролирано обучение с подкрепление

Слабо контролираното обучение с подкрепление (WSRL) обучава агенти в среди, където сигналът за награда е непълен, рядък, забавен или само частично информативен — за разлика от плътното напълно контролирано RL. Агентът трябва да научи ефективни политики въпреки непълната обратна връзка, като използва спомагателни сигнали, моделиране на награди или обучение чрез предпочитания, за да компенсира слабото наблюдение.

Отворете в MethodMindСкороВидеоСкороDownload slides

Прочетете целия метод

Само за членове

Влезте с безплатен профил, за да прочетете този раздел.

Вход

Method map

The neighbourhood of related methods — select a node to explore.

Източници

  1. Sutton, R. S. & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6
  2. Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S. & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems (NeurIPS), 30. link

Как да цитирате тази страница

ScholarGate. (2026, June 3). Weakly Supervised Reinforcement Learning. ScholarGate. https://scholargate.app/bg/deep-learning/weakly-supervised-reinforcement-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Цитиран в

ScholarGateWeakly supervised reinforcement learning (Weakly Supervised Reinforcement Learning). Извлечено на 2026-06-15 от https://scholargate.app/bg/deep-learning/weakly-supervised-reinforcement-learning · Набор от данни: https://doi.org/10.5281/zenodo.20539026