Słabo nadzorowane uczenie ze wzmocnieniem
Słabo nadzorowane uczenie ze wzmocnieniem (WSRL) trenuje agentów w środowiskach, w których sygnał nagrody jest niedoskonały, rzadki, opóźniony lub tylko częściowo informatywny — w przeciwieństwie do gęstego, w pełni nadzorowanego RL. Agent musi nauczyć się skutecznych strategii pomimo niepełnego sprzężenia zwrotnego, wykorzystując sygnały pomocnicze, modelowanie nagród lub uczenie preferencji do kompensacji słabego nadzoru.
Przeczytaj pełny opis metody
Zaloguj się na bezpłatne konto, aby przeczytać tę sekcję.
Method map
The neighbourhood of related methods — select a node to explore.
Źródła
- Sutton, R. S. & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6
- Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S. & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems (NeurIPS), 30. link ↗
Jak cytować tę stronę
ScholarGate. (2026, June 3). Weakly Supervised Reinforcement Learning. ScholarGate. https://scholargate.app/pl/deep-learning/weakly-supervised-reinforcement-learning
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Uczenie ze wzmocnieniemUczenie głębokie↔ compare
- Uczenie ze wzmocnieniem z samonadzoremUczenie głębokie↔ compare
- Wzmocnione uczenie ze sprzężeniem zwrotnym z częściowym nadzoremUczenie głębokie↔ compare
Cytowana przez
Widzisz błąd na tej stronie? Zgłoś go lub zaproponuj poprawkę →