Machine learningReinforcement learning

Poliitika gradiendi meetodid

Poliitika gradiendi meetodid on tugevdusõppe algoritm, mis optimeerib parametriseeritud poliitikat otse oodatava tulu gradiendi tõusu abil, mitte ei õpi tegevusväärtusi ja ei toimi ahnelt. Ronald Williamsi 1992. aasta REINFORCE algoritmi ja Suttoni jt (2000) poliitika gradiendi teoreemil põhinevad meetodid sobivad loomulikult stohhastiliste ja pidevate tegevusruumide käsitlemiseks ning moodustavad tänapäevaste näitleja-kriitiku ja süva-RL algoritmide aluse.

Ava rakenduses MethodMindPeagiVideoPeagiDownload slides

Loe meetodi täielikku kirjeldust

Ainult liikmetele

Selle osa lugemiseks logi sisse tasuta kontoga.

Logi sisse

Method map

The neighbourhood of related methods — select a node to explore.

Poliitika gradiendi meetodid

Kumer optimeerimine Süva tugevdamisõpe Q-õppimine Stohhastiline gradiendil…Tugevdamisõpe

Allikad

Williams, R. J. (1992). Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine Learning, 8(3–4), 229–256. DOI: 10.1007/BF00992696 ↗
Sutton, R. S., McAllester, D., Singh, S., & Mansour, Y. (2000). Policy gradient methods for reinforcement learning with function approximation. Advances in Neural Information Processing Systems, 12, 1057–1063. link ↗

Kuidas sellele lehele viidata

ScholarGate. (2026, June 2). Policy Gradient Methods (REINFORCE / Actor-Critic). ScholarGate. https://scholargate.app/et/machine-learning/policy-gradient

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Kumer optimeerimineOptimeerimine↔ compare
Süva tugevdamisõpeSüvaõpe↔ compare
Q-õppimineMasinõpe↔ compare
Stohhastiline gradiendilange (SGD)Masinõpe↔ compare

Compare side by side →

Sellele viitavad

Q-õppimine Tugevdamisõpe

Märkasid sellel lehel viga? Teata sellest või paku parandust →