Machine learningDeep Learning, Language Models, RLHF Alternatives

प्रत्यक्ष वरीयता अनुकूलन

प्रत्यक्ष वरीयता अनुकूलन (DPO) 2023 में रफाइलोव एट अल. द्वारा प्रस्तुत एक प्रशिक्षण विधि है जो एक स्पष्ट रिवॉर्ड मॉडल की आवश्यकता के बिना भाषा मॉडल को मानवीय वरीयताओं के साथ संरेखित करती है। वरीयता युग्मों (बेहतर प्रतिक्रिया बनाम बदतर प्रतिक्रिया) के लिए सीधे अनुकूलन करके, DPO मानव प्रतिक्रिया से सुदृढीकरण सीखने (RLHF) की तुलना में प्रशिक्षण पाइपलाइन को सरल बनाता है।

MethodMind में खोलेंजल्द हीवीडियोजल्द हीDownload slides

पूरी विधि पढ़ें

केवल सदस्यों के लिए

यह खंड पढ़ने के लिए निःशुल्क खाते से साइन इन करें।

साइन इन करें

Method map

The neighbourhood of related methods — select a node to explore.

प्रत्यक्ष वरीयता अनुकूलन

प्रसुप्त विसरण मॉडल माम्बा (स्टेट स्पेस मॉडल)मास्क्ड ऑटोएन्कोडर्स क्यूलोरा

स्रोत

Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290. link ↗

इस पृष्ठ का उद्धरण कैसे दें

ScholarGate. (2026, June 3). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. ScholarGate. https://scholargate.app/hi/deep-learning/direct-preference-optimization