Metodes ar politikas gradientu
Metodes ar politikas gradientu ir pastiprināšanas mācīšanās algoritmi, kas optimizē parametrizētu politiku tieši, izmantojot gradienta kāpumu uz sagaidāmo atdevi, nevis mācoties darbību vērtības un rīkojoties alkatīgi. Pamatojoties uz Ronald Williams 1992. gada REINFORCE algoritmu un Suttona kolēģu (2000) politikas gradienta teorēmu, tās dabiski apstrādā stohastiskas un nepārtrauktas darbību telpas un ir mūsdienu aktiera-kritiķa un dziļās pastiprināšanas mācīšanās algoritmu pamats.
Lasīt pilno metodes aprakstu
Piesakieties ar bezmaksas kontu, lai lasītu šo sadaļu.
Method map
The neighbourhood of related methods — select a node to explore.
Avoti
- Williams, R. J. (1992). Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine Learning, 8(3–4), 229–256. DOI: 10.1007/BF00992696 ↗
- Sutton, R. S., McAllester, D., Singh, S., & Mansour, Y. (2000). Policy gradient methods for reinforcement learning with function approximation. Advances in Neural Information Processing Systems, 12, 1057–1063. link ↗
Kā citēt šo lapu
ScholarGate. (2026, June 2). Policy Gradient Methods (REINFORCE / Actor-Critic). ScholarGate. https://scholargate.app/lv/machine-learning/policy-gradient
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Konveksā optimizācijaOptimizācija↔ compare
- Dziļā pastiprinātā mācīšanāsDziļā mācīšanās↔ compare
- Q-apmācībaMašīnmācīšanās↔ compare
- Stohastiskā gradienta metode (SGD)Mašīnmācīšanās↔ compare
Uz to atsaucas
Pamanījāt kļūdu šajā lapā? Ziņojiet vai ierosiniet labojumu →