Přímá optimalizace preferencí
Přímá optimalizace preferencí (DPO) je tréninková metoda zavedená Rafaelem Rafailovem a kolektivem v roce 2023, která sladí jazykové modely s lidskými preferencemi bez nutnosti explicitního modelu odměn. Přímým optimalizováním párů preferencí (lepší odpověď vs. horší odpověď) DPO zjednodušuje tréninkový proces ve srovnání s posilovacím učením z lidské zpětné vazby (RLHF).
Přečíst celou metodu
Pro přečtení této sekce se přihlaste s bezplatným účtem.
Method map
The neighbourhood of related methods — select a node to explore.
Zdroje
- Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290. link ↗
Jak citovat tuto stránku
ScholarGate. (2026, June 3). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. ScholarGate. https://scholargate.app/cs/deep-learning/direct-preference-optimization
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Latent Diffusion ModelsHluboké učení↔ compare
- Mamba (model stavového prostoru)Hluboké učení↔ compare
- Maskované autoenkodéryHluboké učení↔ compare
- QLoRAHluboké učení↔ compare
Odkazuje sem
Našli jste na této stránce chybu? Nahlaste ji nebo navrhněte opravu →