Machine learningDeep Learning, Language Models, RLHF Alternatives

Optimización Directa de Preferencias

La Optimización Directa de Preferencias (DPO, por sus siglas en inglés) es un método de entrenamiento introducido por Rafailov et al. en 2023 que alinea los modelos de lenguaje con las preferencias humanas sin requerir un modelo de recompensa explícito. Al optimizar directamente para pares de preferencias (respuesta mejor vs. respuesta peor), DPO simplifica el flujo de entrenamiento en comparación con el aprendizaje por refuerzo a partir de retroalimentación humana (RLHF).

Abrir en MethodMindPróximamenteVídeoPróximamenteDownload slides

Leer el método completo

Solo para miembros

Inicia sesión con una cuenta gratuita para leer esta sección.

Iniciar sesión

Method map

The neighbourhood of related methods — select a node to explore.

Optimización Directa de Preferencias

Modelos de Difusión Late…Mamba (modelo de espacio…Autoencoders enmascarados QLoRA

Fuentes

Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290. link ↗

Cómo citar esta página

ScholarGate. (2026, June 3). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. ScholarGate. https://scholargate.app/es/deep-learning/direct-preference-optimization