Machine learningDeep Learning, Language Models, RLHF Alternatives

التحسين المباشر للتفضيلات

التحسين المباشر للتفضيلات (DPO) هو طريقة تدريب قدمها رافائيلوف وآخرون في عام 2023، والتي تواءم نماذج اللغة مع التفضيلات البشرية دون الحاجة إلى نموذج مكافأة صريح. من خلال التحسين المباشر لأزواج التفضيلات (استجابة أفضل مقابل استجابة أسوأ)، يبسط DPO خط أنابيب التدريب مقارنة بالتعلم المعزز من ردود الفعل البشرية (RLHF).

افتح في MethodMindقريبًافيديوقريبًاDownload slides

اقرأ الطريقة كاملة

للأعضاء فقط

سجّل الدخول بحساب مجاني لقراءة هذا القسم.

تسجيل الدخول

Method map

The neighbourhood of related methods — select a node to explore.

التحسين المباشر للتفضيلات

نماذج الانتشار الكامن مامبا (نموذج فضاء الحالة)المشفرات التلقائية المقن…كيولورا

المصادر

Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290. link ↗

كيف تستشهد بهذه الصفحة

ScholarGate. (2026, June 3). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. ScholarGate. https://scholargate.app/ar/deep-learning/direct-preference-optimization