Machine learningDeep Learning, Language Models, RLHF Alternatives

אופטימיזציית העדפה ישירה

אופטימיזציית העדפה ישירה (DPO) היא שיטת אימון שהוצגה על ידי רפאלוב ועמיתיו בשנת 2023, המיישרת מודלי שפה עם העדפות אנושיות ללא צורך במודל תגמול מפורש. על ידי אופטימיזציה ישירה של זוגות העדפות (תגובה טובה יותר לעומת תגובה גרועה יותר), DPO מפשטת את צינור האימון בהשוואה ללמידת חיזוק ממשוב אנושי (RLHF).

פתיחה ב-MethodMindבקרובוידאובקרובDownload slides

קראו את השיטה במלואה

לחברים בלבד

התחברו עם חשבון חינמי כדי לקרוא חלק זה.

התחברות

Method map

The neighbourhood of related methods — select a node to explore.

אופטימיזציית העדפה ישירה

מודלי דיפוזיה סמויים (La…Mamba (מודל מרחב מצב)מקודדים אוטומטיים ממוסכים QLoRA

מקורות

Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290. link ↗

איך לצטט עמוד זה

ScholarGate. (2026, June 3). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. ScholarGate. https://scholargate.app/he/deep-learning/direct-preference-optimization