ScholarGate
Asistenti
Machine learningDeep learning / NLP / CV

Të nxënit përforcues

Të nxënit përforcues (RL) është një kornizë në të cilën një agjent mëson të marrë vendime sekuenciale duke bashkëvepruar me një mjedis, duke marrë sinjale shpërblimi skalare dhe duke përditësuar një politikë për të maksimizuar shpërblimin e ardhshëm kumulativ. Ndryshe nga të nxënit e mbikëqyrur, nuk ofrohen shembuj të etiketuar; agjenti zbulon sjellje optimale tërësisht përmes përvojës dhe feedback-ut të vonuar.

Hapeni në MethodMindSë shpejtiVideoSë shpejtiDownload slides

Lexoni metodën e plotë

Vetëm për anëtarët

Hyni me një llogari falas për ta lexuar këtë seksion.

Hyni

Method map

The neighbourhood of related methods — select a node to explore.

+2 more

Burimet

  1. Sutton, R. S. & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6
  2. Mnih, V., Kavukcuoglu, K., Silver, D., et al. (2015). Human-level control through deep reinforcement learning. Nature, 518, 529–533. DOI: 10.1038/nature14236

Si ta citoni këtë faqe

ScholarGate. (2026, June 3). Reinforcement Learning (Agent-Environment Reward Optimization). ScholarGate. https://scholargate.app/sq/deep-learning/reinforcement-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Cituar nga

ScholarGateReinforcement Learning (Reinforcement Learning (Agent-Environment Reward Optimization)). Marrë më 2026-06-15 nga https://scholargate.app/sq/deep-learning/reinforcement-learning · Seti i të dhënave: https://doi.org/10.5281/zenodo.20539026