Machine learningDeep Learning, Language Models, RLHF Alternatives

Optimització Directa de Preferències

L'Optimització Directa de Preferències (DPO) és un mètode d'entrenament introduït per Rafailov et al. el 2023 que alinea els models de llenguatge amb les preferències humanes sense requerir un model de recompensa explícit. Optimitzant directament per parells de preferències (resposta millor vs. resposta pitjor), la DPO simplifica el pipeline d'entrenament en comparació amb l'aprenentatge per reforç a partir de retroalimentació humana (RLHF).

Obre a MethodMindAviatVídeoAviatDownload slides

Llegeix el mètode complet

Només per a membres

Inicia la sessió amb un compte gratuït per llegir aquesta secció.

Inicia la sessió

Method map

The neighbourhood of related methods — select a node to explore.

Optimització Directa de Preferències

Models de difusió latents Mamba (Model d'Espai d'E…Autoencoders emmascarats QLoRA

Fonts

Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290. link ↗

Com citar aquesta pàgina

ScholarGate. (2026, June 3). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. ScholarGate. https://scholargate.app/ca/deep-learning/direct-preference-optimization