Optimización Directa de Preferencias
La Optimización Directa de Preferencias (DPO, por sus siglas en inglés) es un método de entrenamiento introducido por Rafailov et al. en 2023 que alinea los modelos de lenguaje con las preferencias humanas sin requerir un modelo de recompensa explícito. Al optimizar directamente para pares de preferencias (respuesta mejor vs. respuesta peor), DPO simplifica el flujo de entrenamiento en comparación con el aprendizaje por refuerzo a partir de retroalimentación humana (RLHF).
Leer el método completo
Inicia sesión con una cuenta gratuita para leer esta sección.
Method map
The neighbourhood of related methods — select a node to explore.
Fuentes
- Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290. link ↗
Cómo citar esta página
ScholarGate. (2026, June 3). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. ScholarGate. https://scholargate.app/es/deep-learning/direct-preference-optimization
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Modelos de Difusión LatenteAprendizaje profundo↔ compare
- Mamba (modelo de espacio de estados)Aprendizaje profundo↔ compare
- Autoencoders enmascaradosAprendizaje profundo↔ compare
- QLoRAAprendizaje profundo↔ compare
Citado por
¿Has visto un problema en esta página? Infórmanos o sugiere una corrección →