Optimizarea Directă a Preferințelor
Optimizarea Directă a Preferințelor (DPO) este o metodă de antrenament introdusă de Rafailov et al. în 2023, care aliniază modelele lingvistice cu preferințele umane fără a necesita un model explicit de recompensă. Prin optimizarea directă a perechilor de preferințe (răspuns mai bun vs. răspuns mai slab), DPO simplifică fluxul de antrenament comparativ cu învățarea prin întărire din feedback uman (RLHF).
Citește metoda completă
Autentifică-te cu un cont gratuit pentru a citi această secțiune.
Method map
The neighbourhood of related methods — select a node to explore.
Surse
- Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290. link ↗
Cum se citează această pagină
ScholarGate. (2026, June 3). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. ScholarGate. https://scholargate.app/ro/deep-learning/direct-preference-optimization
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Modele de difuzie latenteÎnvățare profundă↔ compare
- Mamba (Model de Spațiu de Stări)Învățare profundă↔ compare
- Autoencodere mascateÎnvățare profundă↔ compare
- QLoRAÎnvățare profundă↔ compare
Citat de
Ai observat o problemă pe această pagină? Raportează sau sugerează o corectură →