ScholarGate
Asistente
Machine learningDeep Learning, Language Models, RLHF Alternatives

Optimización Directa de Preferencias

La Optimización Directa de Preferencias (DPO, por sus siglas en inglés) es un método de entrenamiento introducido por Rafailov et al. en 2023 que alinea los modelos de lenguaje con las preferencias humanas sin requerir un modelo de recompensa explícito. Al optimizar directamente para pares de preferencias (respuesta mejor vs. respuesta peor), DPO simplifica el flujo de entrenamiento en comparación con el aprendizaje por refuerzo a partir de retroalimentación humana (RLHF).

Abrir en MethodMindPróximamenteVídeoPróximamenteDownload slides

Leer el método completo

Solo para miembros

Inicia sesión con una cuenta gratuita para leer esta sección.

Iniciar sesión

Method map

The neighbourhood of related methods — select a node to explore.

Fuentes

  1. Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290. link

Cómo citar esta página

ScholarGate. (2026, June 3). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. ScholarGate. https://scholargate.app/es/deep-learning/direct-preference-optimization

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Citado por

ScholarGateDirect Preference Optimization (Direct Preference Optimization: Your Language Model is Secretly a Reward Model). Recuperado el 2026-06-15 de https://scholargate.app/es/deep-learning/direct-preference-optimization · Conjunto de datos: https://doi.org/10.5281/zenodo.20539026