Machine learningDeep Learning, Language Models, RLHF Alternatives

Optimisation directe des préférences

L'Optimisation directe des préférences (DPO) est une méthode d'entraînement introduite par Rafailov et al. en 2023 qui aligne les modèles de langage sur les préférences humaines sans nécessiter de modèle de récompense explicite. En optimisant directement les paires de préférences (réponse meilleure vs réponse pire), le DPO simplifie le pipeline d'entraînement par rapport à l'apprentissage par renforcement à partir des retours humains (RLHF).

Ouvrir dans MethodMindBientôtVidéoBientôtDownload slides

Lire la méthode complète

Réservé aux membres

Connectez-vous avec un compte gratuit pour lire cette section.

Se connecter

Method map

The neighbourhood of related methods — select a node to explore.

Sources

  1. Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290. link

Comment citer cette page

ScholarGate. (2026, June 3). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. ScholarGate. https://scholargate.app/fr/deep-learning/direct-preference-optimization

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Référencée par

ScholarGateDirect Preference Optimization (Direct Preference Optimization: Your Language Model is Secretly a Reward Model). Consulté le 2026-06-15 sur https://scholargate.app/fr/deep-learning/direct-preference-optimization · Jeu de données : https://doi.org/10.5281/zenodo.20539026