Machine learningDeep learning / NLP / CV

Învățare prin consolidare

Învățarea prin consolidare (RL) este un cadru în care un agent învață să ia decizii secvențiale prin interacțiunea cu un mediu, primind semnale scalare de recompensă și actualizând o politică pentru a maximiza recompensa cumulativă viitoare. Spre deosebire de învățarea supervizată, nu sunt furnizate exemple etichetate; agentul descoperă comportamentul optim în întregime prin experiență și feedback întârziat.

Deschide în MethodMindÎn curândVideoÎn curândDownload slides

Citește metoda completă

Doar pentru membri

Autentifică-te cu un cont gratuit pentru a citi această secțiune.

Autentificare

Method map

The neighbourhood of related methods — select a node to explore.

+2 more

Surse

  1. Sutton, R. S. & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6
  2. Mnih, V., Kavukcuoglu, K., Silver, D., et al. (2015). Human-level control through deep reinforcement learning. Nature, 518, 529–533. DOI: 10.1038/nature14236

Cum se citează această pagină

ScholarGate. (2026, June 3). Reinforcement Learning (Agent-Environment Reward Optimization). ScholarGate. https://scholargate.app/ro/deep-learning/reinforcement-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Citat de

ScholarGateReinforcement Learning (Reinforcement Learning (Agent-Environment Reward Optimization)). Preluat la 2026-06-15 de pe https://scholargate.app/ro/deep-learning/reinforcement-learning · Set de date: https://doi.org/10.5281/zenodo.20539026