Optimització Directa de Preferències
L'Optimització Directa de Preferències (DPO) és un mètode d'entrenament introduït per Rafailov et al. el 2023 que alinea els models de llenguatge amb les preferències humanes sense requerir un model de recompensa explícit. Optimitzant directament per parells de preferències (resposta millor vs. resposta pitjor), la DPO simplifica el pipeline d'entrenament en comparació amb l'aprenentatge per reforç a partir de retroalimentació humana (RLHF).
Llegeix el mètode complet
Inicia la sessió amb un compte gratuït per llegir aquesta secció.
Method map
The neighbourhood of related methods — select a node to explore.
Fonts
- Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290. link ↗
Com citar aquesta pàgina
ScholarGate. (2026, June 3). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. ScholarGate. https://scholargate.app/ca/deep-learning/direct-preference-optimization
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Models de difusió latentsAprenentatge profund↔ compare
- Mamba (Model d'Espai d'Estats)Aprenentatge profund↔ compare
- Autoencoders emmascaratsAprenentatge profund↔ compare
- QLoRAAprenentatge profund↔ compare
Citat per
Has vist cap problema en aquesta pàgina? Informa'n o suggereix una correcció →