ScholarGate
Asistenti
Machine learningReinforcement learning

Metodat e Gradientit të Politikës

Metodat e gradientit të politikës janë algoritme të mësimit të përforcuar që optimizojnë drejtpërdrejt një politikë të parametrizuar duke përdorur ngjitjen e gradientit mbi kthimin e pritur, në vend që të mësojnë vlerat e veprimeve dhe të veprojnë lakmisht. E themeluar në algoritmin REINFORCE të Ronald Williams të vitit 1992 dhe teoremën e gradientit të politikës të Sutton dhe kolegëve (2000), ato trajtojnë natyrshëm hapësirat e veprimeve stokastike dhe të vazhdueshme dhe përbëjnë bazën e algoritmeve modernë aktor-kritik dhe RL të thellë.

Hapeni në MethodMindSë shpejtiVideoSë shpejtiDownload slides

Lexoni metodën e plotë

Vetëm për anëtarët

Hyni me një llogari falas për ta lexuar këtë seksion.

Hyni

Method map

The neighbourhood of related methods — select a node to explore.

Burimet

  1. Williams, R. J. (1992). Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine Learning, 8(3–4), 229–256. DOI: 10.1007/BF00992696
  2. Sutton, R. S., McAllester, D., Singh, S., & Mansour, Y. (2000). Policy gradient methods for reinforcement learning with function approximation. Advances in Neural Information Processing Systems, 12, 1057–1063. link

Si ta citoni këtë faqe

ScholarGate. (2026, June 2). Policy Gradient Methods (REINFORCE / Actor-Critic). ScholarGate. https://scholargate.app/sq/machine-learning/policy-gradient

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Cituar nga

ScholarGatePolicy Gradient (Policy Gradient Methods (REINFORCE / Actor-Critic)). Marrë më 2026-06-15 nga https://scholargate.app/sq/machine-learning/policy-gradient · Seti i të dhënave: https://doi.org/10.5281/zenodo.20539026