Machine learning

Syvä vahvistusoppiminen

Syvä vahvistusoppiminen (Deep Reinforcement Learning) yhdistää neuroverkot vahvistusoppimiseen, jolloin agentti oppii vuorovaikutuksessa ympäristön kanssa. Mnihin ja kollegoiden vuoden 2015 Nature-julkaisu ihmistasoisesta Atari-pelien ohjauksesta teki menetelmästä tunnetun. Sen sijaan, että agentti oppisi kiinteästä, leimatusta datajoukosta, se tekee toimintoja, havaitsee palkkioita ja muokkaa vähitellen toimintatapaa, joka maksimoi pitkän aikavälin tuoton.

Avaa sovelluksessa MethodMindTulossaVideoTulossaDownload slides

Lue koko menetelmä

Vain jäsenille

Kirjaudu sisään maksuttomalla tilillä lukeaksesi tämän osion.

Kirjaudu sisään

Method map

The neighbourhood of related methods — select a node to explore.

Lähteet

  1. Mnih, V. et al. (2015). Human-Level Control through Deep Reinforcement Learning. Nature, 518, 529–533. DOI: 10.1038/nature14236
  2. Schulman, J. et al. (2017). Proximal Policy Optimization Algorithms. arXiv:1707.06347. link

Näin viittaat tähän sivuun

ScholarGate. (2026, June 1). Deep Reinforcement Learning (DQN / PPO / A3C). ScholarGate. https://scholargate.app/fi/deep-learning/deep-reinforcement-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Tähän viittaavat

ScholarGateDeep Reinforcement Learning (Deep Reinforcement Learning (DQN / PPO / A3C)). Haettu 2026-06-15 osoitteesta https://scholargate.app/fi/deep-learning/deep-reinforcement-learning · Aineisto: https://doi.org/10.5281/zenodo.20539026