Optimisation directe des préférences
L'Optimisation directe des préférences (DPO) est une méthode d'entraînement introduite par Rafailov et al. en 2023 qui aligne les modèles de langage sur les préférences humaines sans nécessiter de modèle de récompense explicite. En optimisant directement les paires de préférences (réponse meilleure vs réponse pire), le DPO simplifie le pipeline d'entraînement par rapport à l'apprentissage par renforcement à partir des retours humains (RLHF).
Lire la méthode complète
Connectez-vous avec un compte gratuit pour lire cette section.
Method map
The neighbourhood of related methods — select a node to explore.
Sources
- Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290. link ↗
Comment citer cette page
ScholarGate. (2026, June 3). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. ScholarGate. https://scholargate.app/fr/deep-learning/direct-preference-optimization
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Modèles de Diffusion LatenteApprentissage profond↔ compare
- Mamba (Modèle à espace d'états)Apprentissage profond↔ compare
- Autoencodeurs masquésApprentissage profond↔ compare
- QLoRAApprentissage profond↔ compare
Référencée par
Une erreur sur cette page ? Signalez-la ou proposez une correction →