Machine learningReinforcement learning
למידת Q
למידת Q, שהוצגה על ידי כריסטופר ווטקינס ופיטר דיין ב-1992, היא אלגוריתם למידת חיזוק ללא מודל, הלומד את הערך של ביצוע כל פעולה בכל מצב — פונקציית ה-Q — מתוך ניסיון בלבד, ללא מודל של הסביבה. היא אינה מבוססת-מדיניות (off-policy): היא לומדת את ערכי הפעולה האופטימליים תוך כדי מעקב אחר מדיניות התנהגות חוקרת, ותחת תנאים סטנדרטיים היא מוכיחה התכנסות למדיניות האופטימלית.
קראו את השיטה במלואה
לחברים בלבד
התחברותהתחברו עם חשבון חינמי כדי לקרוא חלק זה.
Method map
The neighbourhood of related methods — select a node to explore.
מקורות
- Watkins, C. J. C. H., & Dayan, P. (1992). Q-learning. Machine Learning, 8(3–4), 279–292. DOI: 10.1007/BF00992698 ↗
- Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6
איך לצטט עמוד זה
ScholarGate. (2026, June 2). Q-Learning (Off-Policy Temporal-Difference Control). ScholarGate. https://scholargate.app/he/machine-learning/q-learning
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- למידת חיזוק עמוקהלמידה עמוקה↔ compare
- תכנון דינמיאופטימיזציה↔ compare
- שיטות גרדיאנט מדיניותלמידת מכונה↔ compare