Machine learningDeep Learning, Language Models, RLHF Alternatives

Přímá optimalizace preferencí

Přímá optimalizace preferencí (DPO) je tréninková metoda zavedená Rafaelem Rafailovem a kolektivem v roce 2023, která sladí jazykové modely s lidskými preferencemi bez nutnosti explicitního modelu odměn. Přímým optimalizováním párů preferencí (lepší odpověď vs. horší odpověď) DPO zjednodušuje tréninkový proces ve srovnání s posilovacím učením z lidské zpětné vazby (RLHF).

Otevřít v MethodMindJiž brzyVideoJiž brzyDownload slides

Přečíst celou metodu

Pouze pro členy

Pro přečtení této sekce se přihlaste s bezplatným účtem.

Přihlásit se

Method map

The neighbourhood of related methods — select a node to explore.

Přímá optimalizace preferencí

Latent Diffusion Models Mamba (model stavového p…Maskované autoenkodéry QLoRA

Zdroje

Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290. link ↗

Jak citovat tuto stránku

ScholarGate. (2026, June 3). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. ScholarGate. https://scholargate.app/cs/deep-learning/direct-preference-optimization