Machine learningDeep Learning, Language Models, RLHF Alternatives

Direkte Præferenceoptimering

Direkte Præferenceoptimering (DPO) er en træningsmetode introduceret af Rafailov et al. i 2023, der justerer sprogmodeller med menneskelige præferencer uden at kræve en eksplicit belønningsmodel. Ved direkte at optimere for præferencepar (bedre respons vs. dårligere respons) forenkler DPO træningspipelinen sammenlignet med forstærkningslæring fra menneskelig feedback (RLHF).

Åbn i MethodMindSnartVideoSnartDownload slides

Læs hele metoden

Kun for medlemmer

Log ind med en gratis konto for at læse dette afsnit.

Log ind

Method map

The neighbourhood of related methods — select a node to explore.

Direkte Præferenceoptimering

Latente diffusionsmodell…Mamba (State Space Model)Maskerede Autoencoders QLoRA

Kilder

Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290. link ↗

Sådan citerer du denne side

ScholarGate. (2026, June 3). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. ScholarGate. https://scholargate.app/da/deep-learning/direct-preference-optimization