Të nxënit përforcues
Të nxënit përforcues (RL) është një kornizë në të cilën një agjent mëson të marrë vendime sekuenciale duke bashkëvepruar me një mjedis, duke marrë sinjale shpërblimi skalare dhe duke përditësuar një politikë për të maksimizuar shpërblimin e ardhshëm kumulativ. Ndryshe nga të nxënit e mbikëqyrur, nuk ofrohen shembuj të etiketuar; agjenti zbulon sjellje optimale tërësisht përmes përvojës dhe feedback-ut të vonuar.
Lexoni metodën e plotë
Hyni me një llogari falas për ta lexuar këtë seksion.
Method map
The neighbourhood of related methods — select a node to explore.
+2 more
Burimet
- Sutton, R. S. & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6
- Mnih, V., Kavukcuoglu, K., Silver, D., et al. (2015). Human-level control through deep reinforcement learning. Nature, 518, 529–533. DOI: 10.1038/nature14236 ↗
Si ta citoni këtë faqe
ScholarGate. (2026, June 3). Reinforcement Learning (Agent-Environment Reward Optimization). ScholarGate. https://scholargate.app/sq/deep-learning/reinforcement-learning
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Metodat e Gradientit të PolitikësMësimi i makinës↔ compare
- Rrjeti Nervor RekurentMësimi i thellë↔ compare
Cituar nga
Vutë re një problem në këtë faqe? Raportojeni ose sugjeroni një korrigjim →