Machine learningDeep learning / NLP / CV

Învățare prin consolidare

Învățarea prin consolidare (RL) este un cadru în care un agent învață să ia decizii secvențiale prin interacțiunea cu un mediu, primind semnale scalare de recompensă și actualizând o politică pentru a maximiza recompensa cumulativă viitoare. Spre deosebire de învățarea supervizată, nu sunt furnizate exemple etichetate; agentul descoperă comportamentul optim în întregime prin experiență și feedback întârziat.

Deschide în MethodMindÎn curândVideoÎn curândDownload slides

Citește metoda completă

Doar pentru membri

Autentifică-te cu un cont gratuit pentru a citi această secțiune.

Autentificare

Method map

The neighbourhood of related methods — select a node to explore.

Învățare prin consolidare

Metodele de gradient al…Rețea Neuronală Recurentă Programare Dinamică Baza…Programare Dinamică Baye…Învățare prin Recompensă…Învățare prin Recompensă…Învățare prin Recompensă…Învățare prin consolidar…Învățare prin consolidar…Învățare prin consolidar…

+2 more

Surse

Sutton, R. S. & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6
Mnih, V., Kavukcuoglu, K., Silver, D., et al. (2015). Human-level control through deep reinforcement learning. Nature, 518, 529–533. DOI: 10.1038/nature14236 ↗

Cum se citează această pagină

ScholarGate. (2026, June 3). Reinforcement Learning (Agent-Environment Reward Optimization). ScholarGate. https://scholargate.app/ro/deep-learning/reinforcement-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Metodele de gradient al politiciiÎnvățare automată↔ compare
Rețea Neuronală RecurentăÎnvățare profundă↔ compare

Compare side by side →

Citat de

Programare Dinamică Bazată pe Agenți Programare Dinamică Bayesiană Învățare prin Recompensă Explicabilă Învățare prin Recompensă Fin Ajustată Învățare prin Recompensă Multilingvă Învățare prin consolidare multimodală Învățare prin consolidare auto-supervizată Învățare prin consolidare semi-supervizată Învățarea prin Transfer cu Învățare prin Consolidare Învățare prin consolidare slab supervizată

Ai observat o problemă pe această pagină? Raportează sau sugerează o corectură →