Machine learningDeep learning / NLP / CV

למידת חיזוק

למידת חיזוק (RL) היא מסגרת שבה סוכן לומד לקבל החלטות סדרתיות על ידי אינטראקציה עם סביבה, קבלת אותות תגמול סקלריים ועדכון מדיניות למקסום תגמול עתידי מצטבר. בניגוד ללמידה מונחית-פיקוח, אין דוגמאות מתויגות; הסוכן מגלה התנהגות אופטימלית לחלוטין באמצעות ניסיון ומשוב מושהה.

פתיחה ב-MethodMindבקרובוידאובקרובDownload slides

קראו את השיטה במלואה

לחברים בלבד

התחברו עם חשבון חינמי כדי לקרוא חלק זה.

התחברות

Method map

The neighbourhood of related methods — select a node to explore.

למידת חיזוק

שיטות גרדיאנט מדיניות רשת נוירונים רקורנטית תכנות דינמי מבוסס-סוכן תכנון דינמי בייסיאני למידת חיזוק מוסברת למידת חיזוק מכווננת למידת חיזוק רב-לשונית למידת חיזוק רב-אופנית למידת חיזוק בפיקוח-עצמי למידת חיזוק מונחית-למחצה

+2 more

מקורות

Sutton, R. S. & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6
Mnih, V., Kavukcuoglu, K., Silver, D., et al. (2015). Human-level control through deep reinforcement learning. Nature, 518, 529–533. DOI: 10.1038/nature14236 ↗

איך לצטט עמוד זה

ScholarGate. (2026, June 3). Reinforcement Learning (Agent-Environment Reward Optimization). ScholarGate. https://scholargate.app/he/deep-learning/reinforcement-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

שיטות גרדיאנט מדיניותלמידת מכונה↔ compare
רשת נוירונים רקורנטיתלמידה עמוקה↔ compare

Compare side by side →

מאוזכר על ידי

תכנות דינמי מבוסס-סוכן תכנון דינמי בייסיאני למידת חיזוק מוסברת למידת חיזוק מכווננת למידת חיזוק רב-לשונית למידת חיזוק רב-אופנית למידת חיזוק בפיקוח-עצמי למידת חיזוק מונחית-למחצה למידת העברה עם למידת חיזוק למידת חיזוק מפוקחת באופן חלש

מצאתם בעיה בעמוד זה? דווחו או הציעו תיקון →