Machine learningDeep learning / NLP / CV
למידת חיזוק מפוקחת באופן חלש
למידת חיזוק מפוקחת באופן חלש (WSRL) מאמנת סוכנים בסביבות שבהן אות התגמול אינו מושלם, דליל, מושהה, או אינפורמטיבי חלקית בלבד — בניגוד ל-RL מפוקח באופן מלא וצפוף. הסוכן חייב ללמוד מדיניות יעילות למרות משוב חלקי, תוך שימוש באותות עזר, מידול תגמולים, או למידת העדפות כדי לפצות על הפיקוח החלש.
קראו את השיטה במלואה
לחברים בלבד
התחברותהתחברו עם חשבון חינמי כדי לקרוא חלק זה.
Method map
The neighbourhood of related methods — select a node to explore.
מקורות
- Sutton, R. S. & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6
- Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S. & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems (NeurIPS), 30. link ↗
איך לצטט עמוד זה
ScholarGate. (2026, June 3). Weakly Supervised Reinforcement Learning. ScholarGate. https://scholargate.app/he/deep-learning/weakly-supervised-reinforcement-learning
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- למידת חיזוקלמידה עמוקה↔ compare
- למידת חיזוק בפיקוח-עצמילמידה עמוקה↔ compare
- למידת חיזוק מונחית-למחצהלמידה עמוקה↔ compare