Machine learningReinforcement learning

Metodes ar politikas gradientu

Metodes ar politikas gradientu ir pastiprināšanas mācīšanās algoritmi, kas optimizē parametrizētu politiku tieši, izmantojot gradienta kāpumu uz sagaidāmo atdevi, nevis mācoties darbību vērtības un rīkojoties alkatīgi. Pamatojoties uz Ronald Williams 1992. gada REINFORCE algoritmu un Suttona kolēģu (2000) politikas gradienta teorēmu, tās dabiski apstrādā stohastiskas un nepārtrauktas darbību telpas un ir mūsdienu aktiera-kritiķa un dziļās pastiprināšanas mācīšanās algoritmu pamats.

Atvērt MethodMindDrīzumāVideoDrīzumāDownload slides

Lasīt pilno metodes aprakstu

Tikai dalībniekiem

Piesakieties ar bezmaksas kontu, lai lasītu šo sadaļu.

Pieteikties

Method map

The neighbourhood of related methods — select a node to explore.

Metodes ar politikas gradientu

Konveksā optimizācija Dziļā pastiprinātā mācīš…Q-apmācība Stohastiskā gradienta me…Mācīšanās ar pastiprināj…

Avoti

Williams, R. J. (1992). Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine Learning, 8(3–4), 229–256. DOI: 10.1007/BF00992696 ↗
Sutton, R. S., McAllester, D., Singh, S., & Mansour, Y. (2000). Policy gradient methods for reinforcement learning with function approximation. Advances in Neural Information Processing Systems, 12, 1057–1063. link ↗

Kā citēt šo lapu

ScholarGate. (2026, June 2). Policy Gradient Methods (REINFORCE / Actor-Critic). ScholarGate. https://scholargate.app/lv/machine-learning/policy-gradient

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Konveksā optimizācijaOptimizācija↔ compare
Dziļā pastiprinātā mācīšanāsDziļā mācīšanās↔ compare
Q-apmācībaMašīnmācīšanās↔ compare
Stohastiskā gradienta metode (SGD)Mašīnmācīšanās↔ compare

Compare side by side →

Uz to atsaucas

Q-apmācība Mācīšanās ar pastiprinājumu

Pamanījāt kļūdu šajā lapā? Ziņojiet vai ierosiniet labojumu →