Machine learningReinforcement learning

Metodes ar politikas gradientu

Metodes ar politikas gradientu ir pastiprināšanas mācīšanās algoritmi, kas optimizē parametrizētu politiku tieši, izmantojot gradienta kāpumu uz sagaidāmo atdevi, nevis mācoties darbību vērtības un rīkojoties alkatīgi. Pamatojoties uz Ronald Williams 1992. gada REINFORCE algoritmu un Suttona kolēģu (2000) politikas gradienta teorēmu, tās dabiski apstrādā stohastiskas un nepārtrauktas darbību telpas un ir mūsdienu aktiera-kritiķa un dziļās pastiprināšanas mācīšanās algoritmu pamats.

Atvērt MethodMindDrīzumāVideoDrīzumāDownload slides

Lasīt pilno metodes aprakstu

Tikai dalībniekiem

Piesakieties ar bezmaksas kontu, lai lasītu šo sadaļu.

Pieteikties

Method map

The neighbourhood of related methods — select a node to explore.

Avoti

  1. Williams, R. J. (1992). Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine Learning, 8(3–4), 229–256. DOI: 10.1007/BF00992696
  2. Sutton, R. S., McAllester, D., Singh, S., & Mansour, Y. (2000). Policy gradient methods for reinforcement learning with function approximation. Advances in Neural Information Processing Systems, 12, 1057–1063. link

Kā citēt šo lapu

ScholarGate. (2026, June 2). Policy Gradient Methods (REINFORCE / Actor-Critic). ScholarGate. https://scholargate.app/lv/machine-learning/policy-gradient

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Uz to atsaucas

ScholarGatePolicy Gradient (Policy Gradient Methods (REINFORCE / Actor-Critic)). Izgūts 2026-06-15 no https://scholargate.app/lv/machine-learning/policy-gradient · Datu kopa: https://doi.org/10.5281/zenodo.20539026