ScholarGate
עוזר
Machine learningDeep Learning, Language Models, RLHF Alternatives

אופטימיזציית העדפה ישירה

אופטימיזציית העדפה ישירה (DPO) היא שיטת אימון שהוצגה על ידי רפאלוב ועמיתיו בשנת 2023, המיישרת מודלי שפה עם העדפות אנושיות ללא צורך במודל תגמול מפורש. על ידי אופטימיזציה ישירה של זוגות העדפות (תגובה טובה יותר לעומת תגובה גרועה יותר), DPO מפשטת את צינור האימון בהשוואה ללמידת חיזוק ממשוב אנושי (RLHF).

פתיחה ב-MethodMindבקרובוידאובקרובDownload slides

קראו את השיטה במלואה

לחברים בלבד

התחברו עם חשבון חינמי כדי לקרוא חלק זה.

התחברות

Method map

The neighbourhood of related methods — select a node to explore.

מקורות

  1. Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290. link

איך לצטט עמוד זה

ScholarGate. (2026, June 3). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. ScholarGate. https://scholargate.app/he/deep-learning/direct-preference-optimization

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

מאוזכר על ידי

ScholarGateDirect Preference Optimization (Direct Preference Optimization: Your Language Model is Secretly a Reward Model). אוחזר בתאריך 2026-06-15 מתוך https://scholargate.app/he/deep-learning/direct-preference-optimization · מערך נתונים: https://doi.org/10.5281/zenodo.20539026