ScholarGate
Asisten
Machine learningReinforcement learning

Metode Gradien Kebijakan

Metode gradien kebijakan adalah algoritma pembelajaran penguatan (reinforcement learning) yang mengoptimalkan kebijakan berparameter secara langsung melalui pendakian gradien (gradient ascent) pada ekspektasi imbalan (expected return), alih-alih mempelajari nilai-nilai tindakan (action-values) dan bertindak secara serakah (greedily). Berakar dari algoritma REINFORCE Ronald Williams tahun 1992 dan teorema gradien kebijakan (policy gradient theorem) oleh Sutton dan rekan-rekannya (2000), metode ini secara alami menangani ruang tindakan stokastik dan kontinu serta menjadi dasar bagi algoritma aktor-kritik (actor-critic) dan pembelajaran penguatan mendalam (deep-RL) modern.

Buka di MethodMindSegeraVideoSegeraDownload slides

Baca metode selengkapnya

Khusus anggota

Masuk dengan akun gratis untuk membaca bagian ini.

Masuk

Method map

The neighbourhood of related methods — select a node to explore.

Sumber

  1. Williams, R. J. (1992). Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine Learning, 8(3–4), 229–256. DOI: 10.1007/BF00992696
  2. Sutton, R. S., McAllester, D., Singh, S., & Mansour, Y. (2000). Policy gradient methods for reinforcement learning with function approximation. Advances in Neural Information Processing Systems, 12, 1057–1063. link

Cara menyitasi halaman ini

ScholarGate. (2026, June 2). Policy Gradient Methods (REINFORCE / Actor-Critic). ScholarGate. https://scholargate.app/id/machine-learning/policy-gradient

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Dirujuk oleh

ScholarGatePolicy Gradient (Policy Gradient Methods (REINFORCE / Actor-Critic)). Diakses 2026-06-15 dari https://scholargate.app/id/machine-learning/policy-gradient · Set data: https://doi.org/10.5281/zenodo.20539026