Machine learningReinforcement learning

Metode Gradien Kebijakan

Metode gradien kebijakan adalah algoritma pembelajaran penguatan (reinforcement learning) yang mengoptimalkan kebijakan berparameter secara langsung melalui pendakian gradien (gradient ascent) pada ekspektasi imbalan (expected return), alih-alih mempelajari nilai-nilai tindakan (action-values) dan bertindak secara serakah (greedily). Berakar dari algoritma REINFORCE Ronald Williams tahun 1992 dan teorema gradien kebijakan (policy gradient theorem) oleh Sutton dan rekan-rekannya (2000), metode ini secara alami menangani ruang tindakan stokastik dan kontinu serta menjadi dasar bagi algoritma aktor-kritik (actor-critic) dan pembelajaran penguatan mendalam (deep-RL) modern.

Buka di MethodMindSegeraVideoSegeraDownload slides

Baca metode selengkapnya

Khusus anggota

Masuk dengan akun gratis untuk membaca bagian ini.

Masuk

Method map

The neighbourhood of related methods — select a node to explore.

Metode Gradien Kebijakan

Optimasi Konveks Pembelajaran Penguatan D…Q-Learning Stochastic Gradient Desc…Pembelajaran Penguatan

Sumber

Williams, R. J. (1992). Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine Learning, 8(3–4), 229–256. DOI: 10.1007/BF00992696 ↗
Sutton, R. S., McAllester, D., Singh, S., & Mansour, Y. (2000). Policy gradient methods for reinforcement learning with function approximation. Advances in Neural Information Processing Systems, 12, 1057–1063. link ↗

Cara menyitasi halaman ini

ScholarGate. (2026, June 2). Policy Gradient Methods (REINFORCE / Actor-Critic). ScholarGate. https://scholargate.app/id/machine-learning/policy-gradient

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Optimasi KonveksOptimasi↔ compare
Pembelajaran Penguatan DalamPembelajaran Mendalam↔ compare
Q-LearningPembelajaran Mesin↔ compare
Stochastic Gradient Descent (SGD)Pembelajaran Mesin↔ compare

Compare side by side →

Dirujuk oleh

Q-Learning Pembelajaran Penguatan

Menemukan masalah di halaman ini? Laporkan atau usulkan perbaikan →