Otimização Direta de Preferências
A Otimização Direta de Preferências (DPO) é um método de treinamento introduzido por Rafailov et al. em 2023 que alinha modelos de linguagem com preferências humanas sem exigir um modelo de recompensa explícito. Ao otimizar diretamente pares de preferências (resposta melhor vs. resposta pior), a DPO simplifica o pipeline de treinamento em comparação com o aprendizado por reforço a partir de feedback humano (RLHF).
Leia o método completo
Entre com uma conta gratuita para ler esta seção.
Method map
The neighbourhood of related methods — select a node to explore.
Fontes
- Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290. link ↗
Como citar esta página
ScholarGate. (2026, June 3). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. ScholarGate. https://scholargate.app/pt/deep-learning/direct-preference-optimization
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Modelos de Difusão LatenteAprendizado profundo↔ compare
- Mamba (Modelo de Espaço de Estados)Aprendizado profundo↔ compare
- Autoencoders MascaradosAprendizado profundo↔ compare
- QLoRAAprendizado profundo↔ compare
Referenciado por
Encontrou um problema nesta página? Relate ou sugira uma correção →