Machine learning
למידת חיזוק עמוקה
למידת חיזוק עמוקה משלבת רשתות נוירונים עם למידת חיזוק כך שסוכן לומד על ידי אינטראקציה עם סביבה, פופולרית בזכות עבודתם של Mnih ועמיתיו משנת 2015 ב-Nature על בקרת אטארי ברמה אנושית. במקום ללמוד מתוך מערך נתונים מתויג קבוע, הסוכן מבצע פעולות, צופה בתגמולים, ומעצב בהדרגה מדיניות שממקסמת את התשואה ארוכת הטווח.
קראו את השיטה במלואה
לחברים בלבד
התחברותהתחברו עם חשבון חינמי כדי לקרוא חלק זה.
Method map
The neighbourhood of related methods — select a node to explore.
מקורות
- Mnih, V. et al. (2015). Human-Level Control through Deep Reinforcement Learning. Nature, 518, 529–533. DOI: 10.1038/nature14236 ↗
- Schulman, J. et al. (2017). Proximal Policy Optimization Algorithms. arXiv:1707.06347. link ↗
איך לצטט עמוד זה
ScholarGate. (2026, June 1). Deep Reinforcement Learning (DQN / PPO / A3C). ScholarGate. https://scholargate.app/he/deep-learning/deep-reinforcement-learning
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- חיפוש ארכיטקטורות נוירוניותלמידה עמוקה↔ compare
- יער אקראילמידת מכונה↔ compare
- רשת נוירונים רקורנטיתלמידה עמוקה↔ compare
- XGBoostלמידת מכונה↔ compare