Machine learningDeep Learning, Language Models, RLHF Alternatives

Optimizimi i Drejtpërdrejtë i Preferencave

Optimizimi i Drejtpërdrejtë i Preferencave (DPO) është një metodë trajnimi e prezantuar nga Rafailov et al. në vitin 2023 që përshtat modelet gjuhësore me preferencat njerëzore pa kërkuar një model shpërblimi të qartë. Duke optimizuar drejtpërdrejt për çifte preferencash (përgjigje më e mirë kundrejt përgjigjes më të keqe), DPO thjeshton rrjedhën e trajnimit krahasuar me mësimin e përforcimit nga feedbacku njerëzor (RLHF).

Hapeni në MethodMindSë shpejtiVideoSë shpejtiDownload slides

Lexoni metodën e plotë

Vetëm për anëtarët

Hyni me një llogari falas për ta lexuar këtë seksion.

Hyni

Method map

The neighbourhood of related methods — select a node to explore.

Optimizimi i Drejtpërdrejtë i Preferencave

Modelet Difuzive Latente Mamba (Model i Hapësirës…Auto-koduesit e maskuar QLoRA

Burimet

Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290. link ↗

Si ta citoni këtë faqe

ScholarGate. (2026, June 3). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. ScholarGate. https://scholargate.app/sq/deep-learning/direct-preference-optimization