Machine learningDeep learning / NLP / CV

Förstärkningsinlärning

Förstärkningsinlärning (RL) är ett ramverk där en agent lär sig att fatta sekventiella beslut genom att interagera med en miljö, ta emot skalära belöningssignaler och uppdatera en policy för att maximera kumulativ framtida belöning. Till skillnad från övervakad inlärning tillhandahålls inga märkta exempel; agenten upptäcker optimalt beteende helt genom erfarenhet och fördröjd återkoppling.

Öppna i MethodMindSnartVideoSnartDownload slides

Läs hela metoden

Endast för medlemmar

Logga in med ett kostnadsfritt konto för att läsa avsnittet.

Logga in

Method map

The neighbourhood of related methods — select a node to explore.

Förstärkningsinlärning

Policy gradient-metoder Återkommande neuralt nät…Agent-baserad dynamisk p…Bayesian Dynamic Program…Förklarbar förstärknings…Finjusterad förstärkning…Flerspråkig förstärkning…Multimodal förstärknings…Självövervakad förstärkn…Semi-övervakad förstärkn…

+2 more

Källor

Sutton, R. S. & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6
Mnih, V., Kavukcuoglu, K., Silver, D., et al. (2015). Human-level control through deep reinforcement learning. Nature, 518, 529–533. DOI: 10.1038/nature14236 ↗

Så citerar du den här sidan

ScholarGate. (2026, June 3). Reinforcement Learning (Agent-Environment Reward Optimization). ScholarGate. https://scholargate.app/sv/deep-learning/reinforcement-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Policy gradient-metoderMaskininlärning↔ compare
Återkommande neuralt nätverkDjupinlärning↔ compare

Compare side by side →

Refereras av

Agent-baserad dynamisk programmering Bayesian Dynamic Programming Förklarbar förstärkningsinlärning Finjusterad förstärkningsinlärning Flerspråkig förstärkningsinlärning Multimodal förstärkningsinlärning Självövervakad förstärkningsinlärning Semi-övervakad förstärkningsinlärning Transfer Learning med Reinforcement Learning Svagt övervakad förstärkningsinlärning

Hittade du ett fel på sidan? Rapportera eller föreslå en rättelse →