Machine learningDeep learning / NLP / CV

Tugevdamisõpe

Reinforcement Learning (RL) on üks raamistik, mille abil agent õpib tegema järjestikuseid otsuseid, suheldes keskkonnaga, saades skalaarseid tasusignaale ja täiustades poliitikat, et maksimeerida kumulatiivset tulevast tasu. Erinevalt juhendatud õppimisest ei esitata märgistatud näiteid; agent avastab optimaalse käitumise täielikult kogemuste ja viivitatud tagasiside kaudu.

Ava rakenduses MethodMindPeagiVideoPeagiDownload slides

Loe meetodi täielikku kirjeldust

Ainult liikmetele

Selle osa lugemiseks logi sisse tasuta kontoga.

Logi sisse

Method map

The neighbourhood of related methods — select a node to explore.

Tugevdamisõpe

Poliitika gradiendi meet…Korduv närvivõrk Agent-Based Dynamic Prog…Bayesi dünaamiline progr…Selgitatav tugevdamisõpe Häälestatud tugevdamisõpe Mitmekeelne tugevdamisõpe Multimodaalne tugevdamis…Eneseteadlik tugevdamisõ…Poolitud õppimisega tuge…

+2 more

Allikad

Sutton, R. S. & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6
Mnih, V., Kavukcuoglu, K., Silver, D., et al. (2015). Human-level control through deep reinforcement learning. Nature, 518, 529–533. DOI: 10.1038/nature14236 ↗

Kuidas sellele lehele viidata

ScholarGate. (2026, June 3). Reinforcement Learning (Agent-Environment Reward Optimization). ScholarGate. https://scholargate.app/et/deep-learning/reinforcement-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Poliitika gradiendi meetodidMasinõpe↔ compare
Korduv närvivõrkSüvaõpe↔ compare

Compare side by side →

Sellele viitavad

Agent-Based Dynamic Programming Bayesi dünaamiline programmeerimine Selgitatav tugevdamisõpe Häälestatud tugevdamisõpe Mitmekeelne tugevdamisõpe Multimodaalne tugevdamisõpe Eneseteadlik tugevdamisõpe Poolitud õppimisega tugevdamine Ülekandeõpe koos tugevdusõppega Nõrgalt juhendatud tugevdamisõpe

Märkasid sellel lehel viga? Teata sellest või paku parandust →