Machine learningDeep Learning, Language Models, RLHF Alternatives

Direkte Präferenzoptimierung

Direct Preference Optimization (DPO) ist eine Trainingsmethode, die von Rafailov et al. im Jahr 2023 eingeführt wurde und Sprachmodelle an menschliche Präferenzen anpasst, ohne ein explizites Belohnungsmodell zu benötigen. Durch die direkte Optimierung von Präferenzpaaren (bessere Antwort vs. schlechtere Antwort) vereinfacht DPO die Trainingspipeline im Vergleich zu Reinforcement Learning from Human Feedback (RLHF).

In MethodMind öffnenDemnächstVideoDemnächstDownload slides

Die vollständige Methode lesen

Nur für Mitglieder

Melden Sie sich mit einem kostenlosen Konto an, um diesen Abschnitt zu lesen.

Anmelden

Method map

The neighbourhood of related methods — select a node to explore.

Direkte Präferenzoptimierung

Latent Diffusion Models Mamba (State Space Model)Masked Autoencoders QLoRA

Quellen

Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290. link ↗

So zitieren Sie diese Seite

ScholarGate. (2026, June 3). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. ScholarGate. https://scholargate.app/de/deep-learning/direct-preference-optimization