Machine learningDeep Learning, Language Models, RLHF Alternatives

Optimisation directe des préférences

L'Optimisation directe des préférences (DPO) est une méthode d'entraînement introduite par Rafailov et al. en 2023 qui aligne les modèles de langage sur les préférences humaines sans nécessiter de modèle de récompense explicite. En optimisant directement les paires de préférences (réponse meilleure vs réponse pire), le DPO simplifie le pipeline d'entraînement par rapport à l'apprentissage par renforcement à partir des retours humains (RLHF).

Ouvrir dans MethodMindBientôtVidéoBientôtDownload slides

Lire la méthode complète

Réservé aux membres

Connectez-vous avec un compte gratuit pour lire cette section.

Se connecter

Method map

The neighbourhood of related methods — select a node to explore.

Optimisation directe des préférences

Modèles de Diffusion Lat…Mamba (Modèle à espace d…Autoencodeurs masqués QLoRA

Sources

Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290. link ↗

Comment citer cette page

ScholarGate. (2026, June 3). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. ScholarGate. https://scholargate.app/fr/deep-learning/direct-preference-optimization