ScholarGate
Asistent
Machine learningDeep Learning, Language Models, RLHF Alternatives

Přímá optimalizace preferencí

Přímá optimalizace preferencí (DPO) je tréninková metoda zavedená Rafaelem Rafailovem a kolektivem v roce 2023, která sladí jazykové modely s lidskými preferencemi bez nutnosti explicitního modelu odměn. Přímým optimalizováním párů preferencí (lepší odpověď vs. horší odpověď) DPO zjednodušuje tréninkový proces ve srovnání s posilovacím učením z lidské zpětné vazby (RLHF).

Otevřít v MethodMindJiž brzyVideoJiž brzyDownload slides

Přečíst celou metodu

Pouze pro členy

Pro přečtení této sekce se přihlaste s bezplatným účtem.

Přihlásit se

Method map

The neighbourhood of related methods — select a node to explore.

Zdroje

  1. Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290. link

Jak citovat tuto stránku

ScholarGate. (2026, June 3). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. ScholarGate. https://scholargate.app/cs/deep-learning/direct-preference-optimization

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Odkazuje sem

ScholarGateDirect Preference Optimization (Direct Preference Optimization: Your Language Model is Secretly a Reward Model). Získáno 2026-06-15 z https://scholargate.app/cs/deep-learning/direct-preference-optimization · Datová sada: https://doi.org/10.5281/zenodo.20539026