Direct Preference Optimization
Direct Preference Optimization (DPO) เป็นวิธีการฝึกโมเดลที่ Rafailov และคณะนำเสนอในปี 2023 เพื่อปรับโมเดลภาษาให้สอดคล้องกับความพึงพอใจของมนุษย์โดยไม่ต้องใช้โมเดลให้รางวัล (reward model) ที่ชัดเจน ด้วยการปรับให้เหมาะสมโดยตรงกับคู่ความพึงพอใจ (การตอบสนองที่ดีกว่าเทียบกับการตอบสนองที่แย่กว่า) DPO ทำให้กระบวนการฝึกโมเดลง่ายขึ้นเมื่อเทียบกับการเรียนรู้แบบเสริมกำลังจากข้อเสนอแนะของมนุษย์ (RLHF)
อ่านวิธีฉบับเต็ม
เข้าสู่ระบบด้วยบัญชีฟรีเพื่ออ่านส่วนนี้
Method map
The neighbourhood of related methods — select a node to explore.
แหล่งอ้างอิง
- Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290. link ↗
วิธีอ้างอิงหน้านี้
ScholarGate. (2026, June 3). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. ScholarGate. https://scholargate.app/th/deep-learning/direct-preference-optimization
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- [NEEDS TRANSLATION]การเรียนรู้เชิงลึก↔ compare
- Mamba (แบบจำลองปริภูมิสถานะ)การเรียนรู้เชิงลึก↔ compare
- Masked Autoencodersการเรียนรู้เชิงลึก↔ compare
- คิวโลราการเรียนรู้เชิงลึก↔ compare