Machine learning

Diepgaand bekrachtigingsleren

Diepgaand bekrachtigingsleren (Deep Reinforcement Learning) combineert neurale netwerken met bekrachtigingsleren, zodat een agent leert door interactie met een omgeving. Het werd gepopulariseerd door het Nature-artikel van Mnih en collega's uit 2015 over Atari-besturing op menselijk niveau. In plaats van te leren van een vaste gelabelde dataset, onderneemt de agent acties, observeert beloningen en vormt geleidelijk een beleid dat het rendement op lange termijn maximaliseert.

Openen in MethodMindBinnenkortVideoBinnenkortDownload slides

Lees de volledige methode

Alleen voor leden

Inloggen

Method map

The neighbourhood of related methods — select a node to explore.

Diepgaand bekrachtigingsleren

Neural Architecture Sear…Random Forest Recurrent Neuraal Netwerk XGBoost Differentiële Evolutie Domein-adaptieve Reinfor…Dynamische programmering Beleidgradiëntmethoden Q-Learning Score-gebaseerd generati…

Bronnen

Mnih, V. et al. (2015). Human-Level Control through Deep Reinforcement Learning. Nature, 518, 529–533. DOI: 10.1038/nature14236 ↗
Schulman, J. et al. (2017). Proximal Policy Optimization Algorithms. arXiv:1707.06347. link ↗

Deze pagina citeren

ScholarGate. (2026, June 1). Deep Reinforcement Learning (DQN / PPO / A3C). ScholarGate. https://scholargate.app/nl/deep-learning/deep-reinforcement-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Neural Architecture SearchDeep learning↔ compare
Random ForestMachine learning↔ compare
Recurrent Neuraal NetwerkDeep learning↔ compare
XGBoostMachine learning↔ compare

Compare side by side →

Geciteerd door

Differentiële Evolutie Domein-adaptieve Reinforcement Learning Dynamische programmering Beleidgradiëntmethoden Q-Learning Score-gebaseerd generatief model

Een fout op deze pagina gezien? Meld het of stel een correctie voor →

Lees de volledige methode

Method map

Bronnen

Deze pagina citeren

Verwante methoden

Which method?

Geciteerd door