ScholarGate
Assistent
Machine learningReinforcement learning

Policy gradient-metoder

Policy gradient-metoder är förstärkningsinlärningsalgoritmer som optimerar en parametriserad policy direkt genom gradientuppstigning på den förväntade avkastningen, snarare än att lära sig aktionsvärden och agera girigt. Grundade på Ronald Williams REINFORCE-algoritm från 1992 och policy gradient-teoremet av Sutton och kollegor (2000), hanterar de naturligt stokastiska och kontinuerliga aktionsutrymmen och utgör grunden för moderna aktör-kritiker- och djup-RL-algoritmer.

Öppna i MethodMindSnartVideoSnartDownload slides

Läs hela metoden

Endast för medlemmar

Logga in med ett kostnadsfritt konto för att läsa avsnittet.

Logga in

Method map

The neighbourhood of related methods — select a node to explore.

Källor

  1. Williams, R. J. (1992). Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine Learning, 8(3–4), 229–256. DOI: 10.1007/BF00992696
  2. Sutton, R. S., McAllester, D., Singh, S., & Mansour, Y. (2000). Policy gradient methods for reinforcement learning with function approximation. Advances in Neural Information Processing Systems, 12, 1057–1063. link

Så citerar du den här sidan

ScholarGate. (2026, June 2). Policy Gradient Methods (REINFORCE / Actor-Critic). ScholarGate. https://scholargate.app/sv/machine-learning/policy-gradient

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Refereras av

ScholarGatePolicy Gradient (Policy Gradient Methods (REINFORCE / Actor-Critic)). Hämtad 2026-06-15 från https://scholargate.app/sv/machine-learning/policy-gradient · Datamängd: https://doi.org/10.5281/zenodo.20539026