Machine learningReinforcement learning

Metodele de gradient al politicii

Metodele de gradient al politicii sunt algoritmi de învățare prin ranforsare care optimizează o politică parametrizată direct prin ascensiune pe gradient a valorii așteptate, în loc să învețe valorile acțiunilor și să acționeze lacom. Fondate pe algoritmul REINFORCE al lui Ronald Williams din 1992 și pe teorema gradientului politicii a lui Sutton și colaboratori (2000), ele gestionează în mod natural spații de acțiuni stochastice și continue și stau la baza algoritmilor moderni actor-critic și deep-RL.

Deschide în MethodMindÎn curândVideoÎn curândDownload slides

Citește metoda completă

Doar pentru membri

Autentifică-te cu un cont gratuit pentru a citi această secțiune.

Autentificare

Method map

The neighbourhood of related methods — select a node to explore.

Surse

  1. Williams, R. J. (1992). Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine Learning, 8(3–4), 229–256. DOI: 10.1007/BF00992696
  2. Sutton, R. S., McAllester, D., Singh, S., & Mansour, Y. (2000). Policy gradient methods for reinforcement learning with function approximation. Advances in Neural Information Processing Systems, 12, 1057–1063. link

Cum se citează această pagină

ScholarGate. (2026, June 2). Policy Gradient Methods (REINFORCE / Actor-Critic). ScholarGate. https://scholargate.app/ro/machine-learning/policy-gradient

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Citat de

ScholarGatePolicy Gradient (Policy Gradient Methods (REINFORCE / Actor-Critic)). Preluat la 2026-06-15 de pe https://scholargate.app/ro/machine-learning/policy-gradient · Set de date: https://doi.org/10.5281/zenodo.20539026