Policy Gradient-metoder
Policy gradient-metoder er algoritmer innen forsterkningslæring som optimaliserer en parametrisert policy direkte ved gradientstigning på forventet avkastning, i stedet for å lære handlingsverdier og handle grådig. Basert på Ronald Williams' REINFORCE-algoritme fra 1992 og policy gradient-teoremet av Sutton og kolleger (2000), håndterer de naturlig stokastiske og kontinuerlige handlingsrom og ligger til grunn for moderne aktør-kritiker- og dyp-RL-algoritmer.
Les hele metoden
Logg inn med en gratis konto for å lese denne delen.
Metodekart
Nabolaget av beslektede metoder — velg en node for å utforske.
Kilder
- Williams, R. J. (1992). Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine Learning, 8(3–4), 229–256. DOI: 10.1007/BF00992696 ↗
- Sutton, R. S., McAllester, D., Singh, S., & Mansour, Y. (2000). Policy gradient methods for reinforcement learning with function approximation. Advances in Neural Information Processing Systems, 12, 1057–1063. link ↗
Slik siterer du denne siden
ScholarGate. (2026, June 2). Policy Gradient Methods (REINFORCE / Actor-Critic). ScholarGate. https://scholargate.app/no/machine-learning/policy-gradient
Hvilken metode?
Sett denne metoden ved siden av sin nærmeste slektning og les dem side om side — biblioteket legger bøkene på bordet; valget er ditt.
- Konveks optimeringOptimering↔ sammenlign
- Dyp forsterkningslæringDyp læring↔ sammenlign
- Q-læringMaskinlæring↔ sammenlign
- Stokastisk gradientnedstigning (SGD)Maskinlæring↔ sammenlign
Referert av
Similar methods
Funnet en feil på denne siden? Rapporter eller foreslå en rettelse →