ScholarGate
Assistent
Machine learningReinforcement learning

Poliitika gradiendi meetodid

Poliitika gradiendi meetodid on tugevdusõppe algoritm, mis optimeerib parametriseeritud poliitikat otse oodatava tulu gradiendi tõusu abil, mitte ei õpi tegevusväärtusi ja ei toimi ahnelt. Ronald Williamsi 1992. aasta REINFORCE algoritmi ja Suttoni jt (2000) poliitika gradiendi teoreemil põhinevad meetodid sobivad loomulikult stohhastiliste ja pidevate tegevusruumide käsitlemiseks ning moodustavad tänapäevaste näitleja-kriitiku ja süva-RL algoritmide aluse.

Ava rakenduses MethodMindPeagiVideoPeagiDownload slides

Loe meetodi täielikku kirjeldust

Ainult liikmetele

Selle osa lugemiseks logi sisse tasuta kontoga.

Logi sisse

Method map

The neighbourhood of related methods — select a node to explore.

Allikad

  1. Williams, R. J. (1992). Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine Learning, 8(3–4), 229–256. DOI: 10.1007/BF00992696
  2. Sutton, R. S., McAllester, D., Singh, S., & Mansour, Y. (2000). Policy gradient methods for reinforcement learning with function approximation. Advances in Neural Information Processing Systems, 12, 1057–1063. link

Kuidas sellele lehele viidata

ScholarGate. (2026, June 2). Policy Gradient Methods (REINFORCE / Actor-Critic). ScholarGate. https://scholargate.app/et/machine-learning/policy-gradient

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Sellele viitavad

ScholarGatePolicy Gradient (Policy Gradient Methods (REINFORCE / Actor-Critic)). Loetud 2026-06-15 aadressilt https://scholargate.app/et/machine-learning/policy-gradient · Andmestik: https://doi.org/10.5281/zenodo.20539026