Machine learningReinforcement learning

Policy Gradient-metoder

Policy gradient-metoder er algoritmer innen forsterkningslæring som optimaliserer en parametrisert policy direkte ved gradientstigning på forventet avkastning, i stedet for å lære handlingsverdier og handle grådig. Basert på Ronald Williams' REINFORCE-algoritme fra 1992 og policy gradient-teoremet av Sutton og kolleger (2000), håndterer de naturlig stokastiske og kontinuerlige handlingsrom og ligger til grunn for moderne aktør-kritiker- og dyp-RL-algoritmer.

Åpne i MethodMindSnartApply, compare, get guidance

Tools & resources

Last ned lysbilder

Learn & explore

VideoSnart

Les hele metoden

Kun for medlemmer

Logg inn med en gratis konto for å lese denne delen.

Logg inn

Metodekart

Nabolaget av beslektede metoder — velg en node for å utforske.

Policy Gradient-metoder

Konveks optimering Dyp forsterkningslæring Q-læring Stokastisk gradientnedst…Forsterkningslæring

Kilder

Williams, R. J. (1992). Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine Learning, 8(3–4), 229–256. DOI: 10.1007/BF00992696 ↗
Sutton, R. S., McAllester, D., Singh, S., & Mansour, Y. (2000). Policy gradient methods for reinforcement learning with function approximation. Advances in Neural Information Processing Systems, 12, 1057–1063. link ↗

Slik siterer du denne siden

ScholarGate. (2026, June 2). Policy Gradient Methods (REINFORCE / Actor-Critic). ScholarGate. https://scholargate.app/no/machine-learning/policy-gradient

Hvilken metode?

Sett denne metoden ved siden av sin nærmeste slektning og les dem side om side — biblioteket legger bøkene på bordet; valget er ditt.

Konveks optimeringOptimering↔ sammenlign
Dyp forsterkningslæringDyp læring↔ sammenlign
Q-læringMaskinlæring↔ sammenlign
Stokastisk gradientnedstigning (SGD)Maskinlæring↔ sammenlign

Sammenlign side om side →

Referert av

Q-læring Forsterkningslæring

Related reference concepts

Policy Gradient Methods Reinforcement Learning Value-Based Methods Deep Reinforcement Learning Markov Decision Processes Sequential Decision Making (MDPs)

Funnet en feil på denne siden? Rapporter eller foreslå en rettelse →