Machine learningDeep Learning, Language Models, RLHF Alternatives

Ottimizzazione Diretta delle Preferenze

L'Ottimizzazione Diretta delle Preferenze (Direct Preference Optimization, DPO) è un metodo di addestramento introdotto da Rafailov et al. nel 2023 che allinea i modelli linguistici alle preferenze umane senza richiedere un modello di ricompensa esplicito. Ottimizzando direttamente le coppie di preferenze (risposta migliore vs risposta peggiore), il DPO semplifica la pipeline di addestramento rispetto all'apprendimento per rinforzo dal feedback umano (RLHF).

Apri in MethodMindIn arrivoVideoIn arrivoDownload slides

Leggi il metodo completo

Riservato ai membri

Accedi con un account gratuito per leggere questa sezione.

Accedi

Method map

The neighbourhood of related methods — select a node to explore.

Ottimizzazione Diretta delle Preferenze

Modelli di Diffusione La…Mamba (Modello a Spazio…Autoencoder Mascherati QLoRA

Fonti

Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290. link ↗

Come citare questa pagina

ScholarGate. (2026, June 3). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. ScholarGate. https://scholargate.app/it/deep-learning/direct-preference-optimization