Poliitika gradiendi meetodid
Poliitika gradiendi meetodid on tugevdusõppe algoritm, mis optimeerib parametriseeritud poliitikat otse oodatava tulu gradiendi tõusu abil, mitte ei õpi tegevusväärtusi ja ei toimi ahnelt. Ronald Williamsi 1992. aasta REINFORCE algoritmi ja Suttoni jt (2000) poliitika gradiendi teoreemil põhinevad meetodid sobivad loomulikult stohhastiliste ja pidevate tegevusruumide käsitlemiseks ning moodustavad tänapäevaste näitleja-kriitiku ja süva-RL algoritmide aluse.
Loe meetodi täielikku kirjeldust
Selle osa lugemiseks logi sisse tasuta kontoga.
Method map
The neighbourhood of related methods — select a node to explore.
Allikad
- Williams, R. J. (1992). Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine Learning, 8(3–4), 229–256. DOI: 10.1007/BF00992696 ↗
- Sutton, R. S., McAllester, D., Singh, S., & Mansour, Y. (2000). Policy gradient methods for reinforcement learning with function approximation. Advances in Neural Information Processing Systems, 12, 1057–1063. link ↗
Kuidas sellele lehele viidata
ScholarGate. (2026, June 2). Policy Gradient Methods (REINFORCE / Actor-Critic). ScholarGate. https://scholargate.app/et/machine-learning/policy-gradient
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Kumer optimeerimineOptimeerimine↔ compare
- Süva tugevdamisõpeSüvaõpe↔ compare
- Q-õppimineMasinõpe↔ compare
- Stohhastiline gradiendilange (SGD)Masinõpe↔ compare
Sellele viitavad
Märkasid sellel lehel viga? Teata sellest või paku parandust →