ScholarGate
Pembantu
Machine learning

Pembelajaran Penguatan Dalam (Deep Reinforcement Learning)

Pembelajaran Penguatan Dalam menggabungkan rangkaian saraf tiruan dengan pembelajaran penguatan supaya ejen belajar dengan berinteraksi dengan persekitaran, dipopularkan oleh kajian Mnih dan rakan-rakan pada tahun 2015 dalam Nature mengenai kawalan Atari pada tahap manusia. Berbanding belajar daripada set data berlabel yang tetap, ejen mengambil tindakan, memerhatikan ganjaran, dan secara beransur-ansur membentuk dasar yang memaksimumkan pulangan jangka panjang.

Buka dalam MethodMindTidak lama lagiVideoTidak lama lagiDownload slides

Baca kaedah sepenuhnya

Ahli sahaja

Log masuk dengan akaun percuma untuk membaca bahagian ini.

Log masuk

Method map

The neighbourhood of related methods — select a node to explore.

Sumber

  1. Mnih, V. et al. (2015). Human-Level Control through Deep Reinforcement Learning. Nature, 518, 529–533. DOI: 10.1038/nature14236
  2. Schulman, J. et al. (2017). Proximal Policy Optimization Algorithms. arXiv:1707.06347. link

Cara memetik halaman ini

ScholarGate. (2026, June 1). Deep Reinforcement Learning (DQN / PPO / A3C). ScholarGate. https://scholargate.app/ms/deep-learning/deep-reinforcement-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Dirujuk oleh

ScholarGateDeep Reinforcement Learning (Deep Reinforcement Learning (DQN / PPO / A3C)). Dicapai 2026-06-15 daripada https://scholargate.app/ms/deep-learning/deep-reinforcement-learning · Set data: https://doi.org/10.5281/zenodo.20539026