Machine learningDeep learning / NLP / CV

Të nxënit përforcues

Të nxënit përforcues (RL) është një kornizë në të cilën një agjent mëson të marrë vendime sekuenciale duke bashkëvepruar me një mjedis, duke marrë sinjale shpërblimi skalare dhe duke përditësuar një politikë për të maksimizuar shpërblimin e ardhshëm kumulativ. Ndryshe nga të nxënit e mbikëqyrur, nuk ofrohen shembuj të etiketuar; agjenti zbulon sjellje optimale tërësisht përmes përvojës dhe feedback-ut të vonuar.

Hapeni në MethodMindSë shpejtiVideoSë shpejtiDownload slides

Lexoni metodën e plotë

Vetëm për anëtarët

Hyni me një llogari falas për ta lexuar këtë seksion.

Hyni

Method map

The neighbourhood of related methods — select a node to explore.

Të nxënit përforcues

Metodat e Gradientit të…Rrjeti Nervor Rekurent Programim Dinamik i Bazu…Programim Dinamik Bayesi…Mësim i përforcuar i shp…Përforcim me Përsosje Mësimi i Përforcuar Shum…Mësimi i përforcuar mult…Mësimi i përforcuar me v…Mësimi i përforcuar gjys…

+2 more

Burimet

Sutton, R. S. & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6
Mnih, V., Kavukcuoglu, K., Silver, D., et al. (2015). Human-level control through deep reinforcement learning. Nature, 518, 529–533. DOI: 10.1038/nature14236 ↗

Si ta citoni këtë faqe

ScholarGate. (2026, June 3). Reinforcement Learning (Agent-Environment Reward Optimization). ScholarGate. https://scholargate.app/sq/deep-learning/reinforcement-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Metodat e Gradientit të PolitikësMësimi i makinës↔ compare
Rrjeti Nervor RekurentMësimi i thellë↔ compare

Compare side by side →

Cituar nga

Programim Dinamik i Bazuar te Agjentët Programim Dinamik Bayesiano Mësim i përforcuar i shpjegueshëm Përforcim me Përsosje Mësimi i Përforcuar Shumëgjuhësh Mësimi i përforcuar multimodal Mësimi i përforcuar me vetë-mbikëqyrje Mësimi i përforcuar gjysmë-mbikëqyrës Mësimi me Transferim dhe Mësimi me Përforcim Mësimi i përforcuar me mbikëqyrje të dobët

Vutë re një problem në këtë faqe? Raportojeni ose sugjeroni një korrigjim →