Machine learningDeep Learning, Language Models, RLHF Alternatives

Otimização Direta de Preferências

A Otimização Direta de Preferências (DPO) é um método de treinamento introduzido por Rafailov et al. em 2023 que alinha modelos de linguagem com preferências humanas sem exigir um modelo de recompensa explícito. Ao otimizar diretamente pares de preferências (resposta melhor vs. resposta pior), a DPO simplifica o pipeline de treinamento em comparação com o aprendizado por reforço a partir de feedback humano (RLHF).

Abrir no MethodMindEm breveVídeoEm breveDownload slides

Leia o método completo

Exclusivo para membros

Entre com uma conta gratuita para ler esta seção.

Entrar

Method map

The neighbourhood of related methods — select a node to explore.

Otimização Direta de Preferências

Modelos de Difusão Laten…Mamba (Modelo de Espaço…Autoencoders Mascarados QLoRA

Fontes

Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290. link ↗

Como citar esta página

ScholarGate. (2026, June 3). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. ScholarGate. https://scholargate.app/pt/deep-learning/direct-preference-optimization