Machine learningDeep learning / NLP / CV
למידת חיזוק מכווננת
למידת חיזוק מכווננת (Fine-Tuned Reinforcement Learning) מתאימה מדיניות או מודל שאומנו מראש למשימה חדשה או למטרה התנהגותית באמצעות אותות חיזוק — כולל משוב אנושי — במקום אימון מחדש מאפס. טכניקה זו, שהפכה פופולרית בזכות RLHF (למידת חיזוק ממשוב אנושי), היא הליבה של יישור מודלי שפה גדולים והתאמת סוכני למידת חיזוק עמוקה לסביבות ייעודיות עם מינימום נתונים נוספים.
קראו את השיטה במלואה
לחברים בלבד
התחברותהתחברו עם חשבון חינמי כדי לקרוא חלק זה.
מפת שיטות
סביבת השיטות הקרובות — בחרו צומת כדי לחקור.
מקורות
- Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730–27744. link ↗
- Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30. link ↗
איך לצטט עמוד זה
ScholarGate. (2026, June 3). Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning). ScholarGate. https://scholargate.app/he/deep-learning/fine-tuned-reinforcement-learning
איזו שיטה?
הציבו שיטה זו לצד קרובותיה הקרובות וקראו אותן זו לצד זו — הספרייה מניחה את הספרים על השולחן; הבחירה בידיכם.
- סיווג מבוסס BERT מכוונן עדיןלמידה עמוקה↔ השוואה
- Transformer מכוונן היטבלמידה עמוקה↔ השוואה
- למידת חיזוקלמידה עמוקה↔ השוואה
- למידת חיזוק בפיקוח-עצמילמידה עמוקה↔ השוואה
- למידת העברה עם למידת חיזוקלמידה עמוקה↔ השוואה