ScholarGate
Assistente
Machine learningDeep Learning, Language Models, RLHF Alternatives

Ottimizzazione Diretta delle Preferenze

L'Ottimizzazione Diretta delle Preferenze (Direct Preference Optimization, DPO) è un metodo di addestramento introdotto da Rafailov et al. nel 2023 che allinea i modelli linguistici alle preferenze umane senza richiedere un modello di ricompensa esplicito. Ottimizzando direttamente le coppie di preferenze (risposta migliore vs risposta peggiore), il DPO semplifica la pipeline di addestramento rispetto all'apprendimento per rinforzo dal feedback umano (RLHF).

Apri in MethodMindIn arrivoVideoIn arrivoDownload slides

Leggi il metodo completo

Riservato ai membri

Accedi con un account gratuito per leggere questa sezione.

Accedi

Method map

The neighbourhood of related methods — select a node to explore.

Fonti

  1. Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290. link

Come citare questa pagina

ScholarGate. (2026, June 3). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. ScholarGate. https://scholargate.app/it/deep-learning/direct-preference-optimization

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Citato da

ScholarGateDirect Preference Optimization (Direct Preference Optimization: Your Language Model is Secretly a Reward Model). Consultato il 2026-06-15 da https://scholargate.app/it/deep-learning/direct-preference-optimization · Insieme di dati: https://doi.org/10.5281/zenodo.20539026