Machine learningDeep Learning, Language Models, RLHF Alternatives

Optimització Directa de Preferències

L'Optimització Directa de Preferències (DPO) és un mètode d'entrenament introduït per Rafailov et al. el 2023 que alinea els models de llenguatge amb les preferències humanes sense requerir un model de recompensa explícit. Optimitzant directament per parells de preferències (resposta millor vs. resposta pitjor), la DPO simplifica el pipeline d'entrenament en comparació amb l'aprenentatge per reforç a partir de retroalimentació humana (RLHF).

Obre a MethodMindAviatVídeoAviatDownload slides

Llegeix el mètode complet

Només per a membres

Inicia la sessió amb un compte gratuït per llegir aquesta secció.

Inicia la sessió

Method map

The neighbourhood of related methods — select a node to explore.

Fonts

  1. Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290. link

Com citar aquesta pàgina

ScholarGate. (2026, June 3). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. ScholarGate. https://scholargate.app/ca/deep-learning/direct-preference-optimization

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Citat per

ScholarGateDirect Preference Optimization (Direct Preference Optimization: Your Language Model is Secretly a Reward Model). Recuperat el 2026-06-15 de https://scholargate.app/ca/deep-learning/direct-preference-optimization · Conjunt de dades: https://doi.org/10.5281/zenodo.20539026