Învățare prin consolidare
Învățarea prin consolidare (RL) este un cadru în care un agent învață să ia decizii secvențiale prin interacțiunea cu un mediu, primind semnale scalare de recompensă și actualizând o politică pentru a maximiza recompensa cumulativă viitoare. Spre deosebire de învățarea supervizată, nu sunt furnizate exemple etichetate; agentul descoperă comportamentul optim în întregime prin experiență și feedback întârziat.
Citește metoda completă
Autentifică-te cu un cont gratuit pentru a citi această secțiune.
Method map
The neighbourhood of related methods — select a node to explore.
+2 more
Surse
- Sutton, R. S. & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6
- Mnih, V., Kavukcuoglu, K., Silver, D., et al. (2015). Human-level control through deep reinforcement learning. Nature, 518, 529–533. DOI: 10.1038/nature14236 ↗
Cum se citează această pagină
ScholarGate. (2026, June 3). Reinforcement Learning (Agent-Environment Reward Optimization). ScholarGate. https://scholargate.app/ro/deep-learning/reinforcement-learning
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Metodele de gradient al politiciiÎnvățare automată↔ compare
- Rețea Neuronală RecurentăÎnvățare profundă↔ compare
Citat de
Ai observat o problemă pe această pagină? Raportează sau sugerează o corectură →