Machine learningDeep Learning, Language Models, RLHF Alternatives
التحسين المباشر للتفضيلات
التحسين المباشر للتفضيلات (DPO) هو طريقة تدريب قدمها رافائيلوف وآخرون في عام 2023، والتي تواءم نماذج اللغة مع التفضيلات البشرية دون الحاجة إلى نموذج مكافأة صريح. من خلال التحسين المباشر لأزواج التفضيلات (استجابة أفضل مقابل استجابة أسوأ)، يبسط DPO خط أنابيب التدريب مقارنة بالتعلم المعزز من ردود الفعل البشرية (RLHF).
اقرأ الطريقة كاملة
للأعضاء فقط
تسجيل الدخولسجّل الدخول بحساب مجاني لقراءة هذا القسم.
Method map
The neighbourhood of related methods — select a node to explore.
المصادر
- Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290. link ↗
كيف تستشهد بهذه الصفحة
ScholarGate. (2026, June 3). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. ScholarGate. https://scholargate.app/ar/deep-learning/direct-preference-optimization
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- نماذج الانتشار الكامنالتعلم العميق↔ compare
- مامبا (نموذج فضاء الحالة)التعلم العميق↔ compare
- المشفرات التلقائية المقنعةالتعلم العميق↔ compare
- كيولوراالتعلم العميق↔ compare