Machine learningDeep Learning, Language Models, RLHF Alternatives

Direct Preference Optimization

Direct Preference Optimization (DPO) เป็นวิธีการฝึกโมเดลที่ Rafailov และคณะนำเสนอในปี 2023 เพื่อปรับโมเดลภาษาให้สอดคล้องกับความพึงพอใจของมนุษย์โดยไม่ต้องใช้โมเดลให้รางวัล (reward model) ที่ชัดเจน ด้วยการปรับให้เหมาะสมโดยตรงกับคู่ความพึงพอใจ (การตอบสนองที่ดีกว่าเทียบกับการตอบสนองที่แย่กว่า) DPO ทำให้กระบวนการฝึกโมเดลง่ายขึ้นเมื่อเทียบกับการเรียนรู้แบบเสริมกำลังจากข้อเสนอแนะของมนุษย์ (RLHF)

เปิดใน MethodMindเร็ว ๆ นี้วิดีโอเร็ว ๆ นี้Download slides

อ่านวิธีฉบับเต็ม

สำหรับสมาชิกเท่านั้น

เข้าสู่ระบบด้วยบัญชีฟรีเพื่ออ่านส่วนนี้

เข้าสู่ระบบ

Method map

The neighbourhood of related methods — select a node to explore.

แหล่งอ้างอิง

  1. Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290. link

วิธีอ้างอิงหน้านี้

ScholarGate. (2026, June 3). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. ScholarGate. https://scholargate.app/th/deep-learning/direct-preference-optimization

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

ถูกอ้างอิงโดย

ScholarGateDirect Preference Optimization (Direct Preference Optimization: Your Language Model is Secretly a Reward Model). สืบค้นเมื่อ 2026-06-15 จาก https://scholargate.app/th/deep-learning/direct-preference-optimization · ชุดข้อมูล: https://doi.org/10.5281/zenodo.20539026