ScholarGate
دستیار
Machine learningDeep Learning, Language Models, RLHF Alternatives

بهینه‌سازی مستقیم ترجیحات

بهینه‌سازی مستقیم ترجیحات (DPO) روشی آموزشی است که توسط رافایل رافایلوف و همکاران در سال ۲۰۲۳ معرفی شد و مدل‌های زبان را بدون نیاز به یک مدل پاداش صریح، با ترجیحات انسانی همسو می‌کند. با بهینه‌سازی مستقیم جفت‌های ترجیحی (پاسخ بهتر در مقابل پاسخ بدتر)، DPO خط لوله آموزش را در مقایسه با یادگیری تقویتی از بازخورد انسانی (RLHF) ساده‌تر می‌کند.

باز کردن در MethodMindبه‌زودیویدیوبه‌زودیDownload slides

مطالعهٔ کامل روش

ویژهٔ اعضا

برای خواندن این بخش با حساب رایگان وارد شوید.

ورود

Method map

The neighbourhood of related methods — select a node to explore.

منابع

  1. Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290. link

نحوهٔ استناد به این صفحه

ScholarGate. (2026, June 3). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. ScholarGate. https://scholargate.app/fa/deep-learning/direct-preference-optimization

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

ارجاع‌شده در

ScholarGateDirect Preference Optimization (Direct Preference Optimization: Your Language Model is Secretly a Reward Model). بازیابی‌شده در 2026-06-15 از https://scholargate.app/fa/deep-learning/direct-preference-optimization · مجموعه‌داده: https://doi.org/10.5281/zenodo.20539026