Machine learning

Învățare prin consolidare profundă

Învățarea profundă prin consolidare combină rețelele neuronale cu învățarea prin consolidare, astfel încât un agent să învețe prin interacțiunea cu un mediu, popularizată de lucrarea din 2015 a lui Mnih și colaboratorii săi din Nature despre controlul la nivel uman al jocurilor Atari. În loc să învețe dintr-un set de date etichetat fix, agentul ia acțiuni, observă recompense și modelează treptat o politică ce maximizează randamentul pe termen lung.

Deschide în MethodMindÎn curândVideoÎn curândDownload slides

Citește metoda completă

Doar pentru membri

Autentifică-te cu un cont gratuit pentru a citi această secțiune.

Autentificare

Method map

The neighbourhood of related methods — select a node to explore.

Învățare prin consolidare profundă

Căutarea Arhitecturilor…Pădurea Aleatoare (Rando…Rețea Neuronală Recurentă XGBoost Criteriul de Decizie Dif…Învățare prin Recompensă…Programare Dinamică Metodele de gradient al…Q-Learning Model Generativ Bazat pe…

Surse

Mnih, V. et al. (2015). Human-Level Control through Deep Reinforcement Learning. Nature, 518, 529–533. DOI: 10.1038/nature14236 ↗
Schulman, J. et al. (2017). Proximal Policy Optimization Algorithms. arXiv:1707.06347. link ↗

Cum se citează această pagină

ScholarGate. (2026, June 1). Deep Reinforcement Learning (DQN / PPO / A3C). ScholarGate. https://scholargate.app/ro/deep-learning/deep-reinforcement-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Căutarea Arhitecturilor NeuronaleÎnvățare profundă↔ compare
Pădurea Aleatoare (Random Forest)Învățare automată↔ compare
Rețea Neuronală RecurentăÎnvățare profundă↔ compare
XGBoostÎnvățare automată↔ compare

Compare side by side →

Citat de

Criteriul de Decizie Diferențială Învățare prin Recompensă Adaptivă la Domeniu Programare Dinamică Metodele de gradient al politicii Q-Learning Model Generativ Bazat pe Scor

Ai observat o problemă pe această pagină? Raportează sau sugerează o corectură →

Citește metoda completă

Method map

Surse

Cum se citează această pagină

Metode înrudite

Which method?

Citat de