بهینهسازی مستقیم ترجیحات
بهینهسازی مستقیم ترجیحات (DPO) روشی آموزشی است که توسط رافایل رافایلوف و همکاران در سال ۲۰۲۳ معرفی شد و مدلهای زبان را بدون نیاز به یک مدل پاداش صریح، با ترجیحات انسانی همسو میکند. با بهینهسازی مستقیم جفتهای ترجیحی (پاسخ بهتر در مقابل پاسخ بدتر)، DPO خط لوله آموزش را در مقایسه با یادگیری تقویتی از بازخورد انسانی (RLHF) سادهتر میکند.
مطالعهٔ کامل روش
برای خواندن این بخش با حساب رایگان وارد شوید.
Method map
The neighbourhood of related methods — select a node to explore.
منابع
- Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290. link ↗
نحوهٔ استناد به این صفحه
ScholarGate. (2026, June 3). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. ScholarGate. https://scholargate.app/fa/deep-learning/direct-preference-optimization
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- مدلهای انتشاری نهفتهیادگیری عمیق↔ compare
- مامبا (مدل فضای حالت)یادگیری عمیق↔ compare
- خودرمزگذارِ پوشیده (Masked Autoencoders)یادگیری عمیق↔ compare
- QLoRAیادگیری عمیق↔ compare
ارجاعشده در
در این صفحه مشکلی دیدید؟ گزارش دهید یا اصلاحی پیشنهاد کنید →