Machine learning

Ujifunzaji wa Kina wa Uimarishaji

Deep Reinforcement Learning huunganisha mitandao ya neva na ujifunzaji wa uimarishaji ili wakala ajifunze kwa kuingiliana na mazingira, maarufu kupitia kazi ya Mnih na wenzake ya 2015 katika jarida la Nature kuhusu udhibiti wa kiwango cha binadamu wa michezo ya Atari. Badala ya kujifunza kutoka kwa seti ya data iliyowekwa lebo, wakala huchukua hatua, huzingatia tuzo, na hatua kwa hatua huunda sera inayoongeza faida ya muda mrefu.

Fungua katika MethodMindHivi karibuniVideoHivi karibuniDownload slides

Soma mbinu kamili

Kwa wanachama pekee

Ingia kwa akaunti ya bure ili kusoma sehemu hii.

Ingia

Method map

The neighbourhood of related methods — select a node to explore.

Ujifunzaji wa Kina wa Uimarishaji

Utafutaji wa Usanifu wa…Msitu Nasibu Mtandao wa Nyuro Unaojir…XGBoost Differential Evolution Ujifunzaji wa Uimarishaj…Programu Sanifu Mbinu za Kielelezo cha S…Q-Learning Muundo wa Uzalishaji una…

Vyanzo

Mnih, V. et al. (2015). Human-Level Control through Deep Reinforcement Learning. Nature, 518, 529–533. DOI: 10.1038/nature14236 ↗
Schulman, J. et al. (2017). Proximal Policy Optimization Algorithms. arXiv:1707.06347. link ↗

Jinsi ya kunukuu ukurasa huu

ScholarGate. (2026, June 1). Deep Reinforcement Learning (DQN / PPO / A3C). ScholarGate. https://scholargate.app/sw/deep-learning/deep-reinforcement-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Utafutaji wa Usanifu wa NeuralUjifunzaji wa Kina↔ compare
Msitu NasibuUjifunzaji wa Mashine↔ compare
Mtandao wa Nyuro UnaojirudiaUjifunzaji wa Kina↔ compare
XGBoostUjifunzaji wa Mashine↔ compare

Compare side by side →

Imerejelewa na

Differential Evolution Ujifunzaji wa Uimarishaji unaobadilika na Kanda Programu Sanifu Mbinu za Kielelezo cha Sera Q-Learning Muundo wa Uzalishaji unaotegemea Alama

Umeona tatizo kwenye ukurasa huu? Ripoti au pendekeza marekebisho →

Soma mbinu kamili

Method map

Vyanzo

Jinsi ya kunukuu ukurasa huu

Mbinu zinazohusiana

Which method?

Imerejelewa na