ScholarGate
Asistenti
Machine learningDeep Learning, Language Models, RLHF Alternatives

Optimizimi i Drejtpërdrejtë i Preferencave

Optimizimi i Drejtpërdrejtë i Preferencave (DPO) është një metodë trajnimi e prezantuar nga Rafailov et al. në vitin 2023 që përshtat modelet gjuhësore me preferencat njerëzore pa kërkuar një model shpërblimi të qartë. Duke optimizuar drejtpërdrejt për çifte preferencash (përgjigje më e mirë kundrejt përgjigjes më të keqe), DPO thjeshton rrjedhën e trajnimit krahasuar me mësimin e përforcimit nga feedbacku njerëzor (RLHF).

Hapeni në MethodMindSë shpejtiVideoSë shpejtiDownload slides

Lexoni metodën e plotë

Vetëm për anëtarët

Hyni me një llogari falas për ta lexuar këtë seksion.

Hyni

Method map

The neighbourhood of related methods — select a node to explore.

Burimet

  1. Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290. link

Si ta citoni këtë faqe

ScholarGate. (2026, June 3). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. ScholarGate. https://scholargate.app/sq/deep-learning/direct-preference-optimization

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Cituar nga

ScholarGateDirect Preference Optimization (Direct Preference Optimization: Your Language Model is Secretly a Reward Model). Marrë më 2026-06-15 nga https://scholargate.app/sq/deep-learning/direct-preference-optimization · Seti i të dhënave: https://doi.org/10.5281/zenodo.20539026