Machine learningDeep Learning, Language Models, RLHF Alternatives

بهینه‌سازی مستقیم ترجیحات

بهینه‌سازی مستقیم ترجیحات (DPO) روشی آموزشی است که توسط رافایل رافایلوف و همکاران در سال ۲۰۲۳ معرفی شد و مدل‌های زبان را بدون نیاز به یک مدل پاداش صریح، با ترجیحات انسانی همسو می‌کند. با بهینه‌سازی مستقیم جفت‌های ترجیحی (پاسخ بهتر در مقابل پاسخ بدتر)، DPO خط لوله آموزش را در مقایسه با یادگیری تقویتی از بازخورد انسانی (RLHF) ساده‌تر می‌کند.

باز کردن در MethodMindبه‌زودیویدیوبه‌زودیDownload slides

مطالعهٔ کامل روش

ویژهٔ اعضا

برای خواندن این بخش با حساب رایگان وارد شوید.

ورود

Method map

The neighbourhood of related methods — select a node to explore.

بهینه‌سازی مستقیم ترجیحات

مدل‌های انتشاری نهفته مامبا (مدل فضای حالت)خودرمزگذارِ پوشیده (Mask…QLoRA

منابع

Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290. link ↗

نحوهٔ استناد به این صفحه

ScholarGate. (2026, June 3). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. ScholarGate. https://scholargate.app/fa/deep-learning/direct-preference-optimization