Ottimizzazione Diretta delle Preferenze
L'Ottimizzazione Diretta delle Preferenze (Direct Preference Optimization, DPO) è un metodo di addestramento introdotto da Rafailov et al. nel 2023 che allinea i modelli linguistici alle preferenze umane senza richiedere un modello di ricompensa esplicito. Ottimizzando direttamente le coppie di preferenze (risposta migliore vs risposta peggiore), il DPO semplifica la pipeline di addestramento rispetto all'apprendimento per rinforzo dal feedback umano (RLHF).
Leggi il metodo completo
Accedi con un account gratuito per leggere questa sezione.
Method map
The neighbourhood of related methods — select a node to explore.
Fonti
- Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290. link ↗
Come citare questa pagina
ScholarGate. (2026, June 3). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. ScholarGate. https://scholargate.app/it/deep-learning/direct-preference-optimization
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Modelli di Diffusione LatenteApprendimento profondo↔ compare
- Mamba (Modello a Spazio degli Stati)Apprendimento profondo↔ compare
- Autoencoder MascheratiApprendimento profondo↔ compare
- QLoRAApprendimento profondo↔ compare
Citato da
Hai notato un problema in questa pagina? Segnalalo o proponi una correzione →