Machine learning

Pembelajaran Penguatan Dalam (Deep Reinforcement Learning)

Pembelajaran Penguatan Dalam menggabungkan rangkaian saraf tiruan dengan pembelajaran penguatan supaya ejen belajar dengan berinteraksi dengan persekitaran, dipopularkan oleh kajian Mnih dan rakan-rakan pada tahun 2015 dalam Nature mengenai kawalan Atari pada tahap manusia. Berbanding belajar daripada set data berlabel yang tetap, ejen mengambil tindakan, memerhatikan ganjaran, dan secara beransur-ansur membentuk dasar yang memaksimumkan pulangan jangka panjang.

Buka dalam MethodMindTidak lama lagiVideoTidak lama lagiDownload slides

Baca kaedah sepenuhnya

Ahli sahaja

Log masuk dengan akaun percuma untuk membaca bahagian ini.

Log masuk

Method map

The neighbourhood of related methods — select a node to explore.

Pembelajaran Penguatan Dalam (Deep Reinforcement Learning)

Pencarian Seni Bina Neur…Random Forest Jaringan Saraf Berulang XGBoost Differential Evolution Pembelajaran Penguatan A…Pengaturcaraan Dinamik Kaedah Gradien Dasar Pembelajaran-Q Model Generatif Berasask…

Sumber

Mnih, V. et al. (2015). Human-Level Control through Deep Reinforcement Learning. Nature, 518, 529–533. DOI: 10.1038/nature14236 ↗
Schulman, J. et al. (2017). Proximal Policy Optimization Algorithms. arXiv:1707.06347. link ↗

Cara memetik halaman ini

ScholarGate. (2026, June 1). Deep Reinforcement Learning (DQN / PPO / A3C). ScholarGate. https://scholargate.app/ms/deep-learning/deep-reinforcement-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Pencarian Seni Bina NeuralPembelajaran Mendalam↔ compare
Random ForestPembelajaran Mesin↔ compare
Jaringan Saraf BerulangPembelajaran Mendalam↔ compare
XGBoostPembelajaran Mesin↔ compare

Compare side by side →

Dirujuk oleh

Differential Evolution Pembelajaran Penguatan Adaptif Domain Pengaturcaraan Dinamik Kaedah Gradien Dasar Pembelajaran-Q Model Generatif Berasaskan Skor

Terjumpa masalah pada halaman ini? Laporkan atau cadangkan pembetulan →

Baca kaedah sepenuhnya

Method map

Sumber

Cara memetik halaman ini

Kaedah berkaitan

Which method?

Dirujuk oleh