ScholarGate
Assistent
Machine learningReinforcement learning

Policy Gradient-metoder

Policy gradient-metoder er algoritmer innen forsterkningslæring som optimaliserer en parametrisert policy direkte ved gradientstigning på forventet avkastning, i stedet for å lære handlingsverdier og handle grådig. Basert på Ronald Williams' REINFORCE-algoritme fra 1992 og policy gradient-teoremet av Sutton og kolleger (2000), håndterer de naturlig stokastiske og kontinuerlige handlingsrom og ligger til grunn for moderne aktør-kritiker- og dyp-RL-algoritmer.

Åpne i MethodMindSnartApply, compare, get guidance
Tools & resources
Last ned lysbilder
Learn & explore
VideoSnart

Les hele metoden

Kun for medlemmer

Logg inn med en gratis konto for å lese denne delen.

Logg inn

Metodekart

Nabolaget av beslektede metoder — velg en node for å utforske.

Kilder

  1. Williams, R. J. (1992). Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine Learning, 8(3–4), 229–256. DOI: 10.1007/BF00992696
  2. Sutton, R. S., McAllester, D., Singh, S., & Mansour, Y. (2000). Policy gradient methods for reinforcement learning with function approximation. Advances in Neural Information Processing Systems, 12, 1057–1063. link

Slik siterer du denne siden

ScholarGate. (2026, June 2). Policy Gradient Methods (REINFORCE / Actor-Critic). ScholarGate. https://scholargate.app/no/machine-learning/policy-gradient

Hvilken metode?

Sett denne metoden ved siden av sin nærmeste slektning og les dem side om side — biblioteket legger bøkene på bordet; valget er ditt.

Sammenlign side om side

Referert av

ScholarGatePolicy Gradient (Policy Gradient Methods (REINFORCE / Actor-Critic)). Hentet 2026-06-17 fra https://scholargate.app/no/machine-learning/policy-gradient · Datasett: https://doi.org/10.5281/zenodo.20539026