ScholarGate
Assistente
Machine learningDeep Learning, Language Models, RLHF Alternatives

Otimização Direta de Preferências

A Otimização Direta de Preferências (DPO) é um método de treinamento introduzido por Rafailov et al. em 2023 que alinha modelos de linguagem com preferências humanas sem exigir um modelo de recompensa explícito. Ao otimizar diretamente pares de preferências (resposta melhor vs. resposta pior), a DPO simplifica o pipeline de treinamento em comparação com o aprendizado por reforço a partir de feedback humano (RLHF).

Abrir no MethodMindEm breveVídeoEm breveDownload slides

Leia o método completo

Exclusivo para membros

Entre com uma conta gratuita para ler esta seção.

Entrar

Method map

The neighbourhood of related methods — select a node to explore.

Fontes

  1. Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290. link

Como citar esta página

ScholarGate. (2026, June 3). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. ScholarGate. https://scholargate.app/pt/deep-learning/direct-preference-optimization

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Referenciado por

ScholarGateDirect Preference Optimization (Direct Preference Optimization: Your Language Model is Secretly a Reward Model). Recuperado em 2026-06-15 de https://scholargate.app/pt/deep-learning/direct-preference-optimization · Conjunto de dados: https://doi.org/10.5281/zenodo.20539026