Vahvistusoppiminen
Vahvistusoppiminen (RL) on kehys, jossa agentti oppii tekemään peräkkäisiä päätöksiä vuorovaikuttamalla ympäristön kanssa, vastaanottamalla skalaarisia palkkiosignaaleja ja päivittämällä politiikkaa kumulatiivisen tulevan palkkion maksimoimiseksi. Toisin kuin ohjatussa oppimisessa, merkittyjä esimerkkejä ei anneta; agentti löytää optimaalisen käyttäytymisen täysin kokemuksen ja viivästyneen palautteen kautta.
Lue koko menetelmä
Kirjaudu sisään maksuttomalla tilillä lukeaksesi tämän osion.
Method map
The neighbourhood of related methods — select a node to explore.
+2 more
Lähteet
- Sutton, R. S. & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6
- Mnih, V., Kavukcuoglu, K., Silver, D., et al. (2015). Human-level control through deep reinforcement learning. Nature, 518, 529–533. DOI: 10.1038/nature14236 ↗
Näin viittaat tähän sivuun
ScholarGate. (2026, June 3). Reinforcement Learning (Agent-Environment Reward Optimization). ScholarGate. https://scholargate.app/fi/deep-learning/reinforcement-learning
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Policy Gradient -menetelmätKoneoppiminen↔ compare
- Rekurrentti neuroverkkoSyväoppiminen↔ compare
Tähän viittaavat
Huomasitko virheen tällä sivulla? Ilmoita siitä tai ehdota korjausta →