Machine learningDeep Learning, Language Models, RLHF Alternatives

Direct Preference Optimization

Direct Preference Optimization (DPO) เป็นวิธีการฝึกโมเดลที่ Rafailov และคณะนำเสนอในปี 2023 เพื่อปรับโมเดลภาษาให้สอดคล้องกับความพึงพอใจของมนุษย์โดยไม่ต้องใช้โมเดลให้รางวัล (reward model) ที่ชัดเจน ด้วยการปรับให้เหมาะสมโดยตรงกับคู่ความพึงพอใจ (การตอบสนองที่ดีกว่าเทียบกับการตอบสนองที่แย่กว่า) DPO ทำให้กระบวนการฝึกโมเดลง่ายขึ้นเมื่อเทียบกับการเรียนรู้แบบเสริมกำลังจากข้อเสนอแนะของมนุษย์ (RLHF)

เปิดใน MethodMindเร็ว ๆ นี้วิดีโอเร็ว ๆ นี้Download slides

อ่านวิธีฉบับเต็ม

สำหรับสมาชิกเท่านั้น

เข้าสู่ระบบด้วยบัญชีฟรีเพื่ออ่านส่วนนี้

เข้าสู่ระบบ

Method map

The neighbourhood of related methods — select a node to explore.

Direct Preference Optimization

[NEEDS TRANSLATION]Mamba (แบบจำลองปริภูมิสถ…Masked Autoencoders คิวโลรา

แหล่งอ้างอิง

Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290. link ↗

วิธีอ้างอิงหน้านี้

ScholarGate. (2026, June 3). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. ScholarGate. https://scholargate.app/th/deep-learning/direct-preference-optimization

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

[NEEDS TRANSLATION]การเรียนรู้เชิงลึก↔ compare
Mamba (แบบจำลองปริภูมิสถานะ)การเรียนรู้เชิงลึก↔ compare
Masked Autoencodersการเรียนรู้เชิงลึก↔ compare
คิวโลราการเรียนรู้เชิงลึก↔ compare

Compare side by side →

ถูกอ้างอิงโดย

คิวโลรา

พบปัญหาในหน้านี้หรือไม่ แจ้งหรือเสนอการแก้ไข →

อ่านวิธีฉบับเต็ม

Method map

แหล่งอ้างอิง

วิธีอ้างอิงหน้านี้

วิธีที่เกี่ยวข้อง

Which method?

ถูกอ้างอิงโดย