Machine learning

Syvä vahvistusoppiminen

Syvä vahvistusoppiminen (Deep Reinforcement Learning) yhdistää neuroverkot vahvistusoppimiseen, jolloin agentti oppii vuorovaikutuksessa ympäristön kanssa. Mnihin ja kollegoiden vuoden 2015 Nature-julkaisu ihmistasoisesta Atari-pelien ohjauksesta teki menetelmästä tunnetun. Sen sijaan, että agentti oppisi kiinteästä, leimatusta datajoukosta, se tekee toimintoja, havaitsee palkkioita ja muokkaa vähitellen toimintatapaa, joka maksimoi pitkän aikavälin tuoton.

Avaa sovelluksessa MethodMindTulossaVideoTulossaDownload slides

Lue koko menetelmä

Vain jäsenille

Kirjaudu sisään maksuttomalla tilillä lukeaksesi tämän osion.

Kirjaudu sisään

Method map

The neighbourhood of related methods — select a node to explore.

Syvä vahvistusoppiminen

Neuraaliarkkitehtuurihaku Random Forest Rekurrentti neuroverkko XGBoost Differentiaalikehitys –…Toimialaan mukautuva vah…Dynaaminen ohjelmointi Policy Gradient -menetel…Q-oppiminen Generatiivinen pistemalli

Lähteet

Mnih, V. et al. (2015). Human-Level Control through Deep Reinforcement Learning. Nature, 518, 529–533. DOI: 10.1038/nature14236 ↗
Schulman, J. et al. (2017). Proximal Policy Optimization Algorithms. arXiv:1707.06347. link ↗

Näin viittaat tähän sivuun

ScholarGate. (2026, June 1). Deep Reinforcement Learning (DQN / PPO / A3C). ScholarGate. https://scholargate.app/fi/deep-learning/deep-reinforcement-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

NeuraaliarkkitehtuurihakuSyväoppiminen↔ compare
Random ForestKoneoppiminen↔ compare
Rekurrentti neuroverkkoSyväoppiminen↔ compare
XGBoostKoneoppiminen↔ compare

Compare side by side →

Tähän viittaavat

Differentiaalikehitys – globaali stokastinen optimoija Toimialaan mukautuva vahvistusoppiminen Dynaaminen ohjelmointi Policy Gradient -menetelmät Q-oppiminen Generatiivinen pistemalli

Huomasitko virheen tällä sivulla? Ilmoita siitä tai ehdota korjausta →

Lue koko menetelmä

Method map

Lähteet

Näin viittaat tähän sivuun

Aiheeseen liittyvät menetelmät

Which method?

Tähän viittaavat