Machine learningDeep Learning, Language Models, RLHF Alternatives

التحسين المباشر للتفضيلات

التحسين المباشر للتفضيلات (DPO) هو طريقة تدريب قدمها رافائيلوف وآخرون في عام 2023، والتي تواءم نماذج اللغة مع التفضيلات البشرية دون الحاجة إلى نموذج مكافأة صريح. من خلال التحسين المباشر لأزواج التفضيلات (استجابة أفضل مقابل استجابة أسوأ)، يبسط DPO خط أنابيب التدريب مقارنة بالتعلم المعزز من ردود الفعل البشرية (RLHF).

افتح في MethodMindقريبًافيديوقريبًاDownload slides

اقرأ الطريقة كاملة

للأعضاء فقط

سجّل الدخول بحساب مجاني لقراءة هذا القسم.

تسجيل الدخول

Method map

The neighbourhood of related methods — select a node to explore.

المصادر

  1. Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290. link

كيف تستشهد بهذه الصفحة

ScholarGate. (2026, June 3). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. ScholarGate. https://scholargate.app/ar/deep-learning/direct-preference-optimization

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

يُستشهد بها في

ScholarGateDirect Preference Optimization (Direct Preference Optimization: Your Language Model is Secretly a Reward Model). استُرجع بتاريخ 2026-06-15 من https://scholargate.app/ar/deep-learning/direct-preference-optimization · مجموعة البيانات: https://doi.org/10.5281/zenodo.20539026