Machine learningDeep Learning, Language Models, RLHF Alternatives

Uboreshaji wa Mapendeleo ya Moja kwa Moja

Uboreshaji wa Mapendeleo ya Moja kwa Moja (DPO) ni mbinu ya mafunzo iliyoletwa na Rafailov et al. mwaka 2023 ambayo inalinganisha miundo ya lugha na mapendeleo ya binadamu bila kuhitaji modeli ya tuzo ya wazi. Kwa kuboresha moja kwa moja jozi za mapendeleo (majibu bora dhidi ya majibu mabaya), DPO hurahisisha mchakato wa mafunzo ikilinganishwa na ujifunzaji wa kuimarisha kutoka kwa maoni ya binadamu (RLHF).

Fungua katika MethodMindHivi karibuniVideoHivi karibuniDownload slides

Soma mbinu kamili

Kwa wanachama pekee

Ingia kwa akaunti ya bure ili kusoma sehemu hii.

Ingia

Method map

The neighbourhood of related methods — select a node to explore.

Uboreshaji wa Mapendeleo ya Moja kwa Moja

Mifumo ya Uenezaji Iliyo…Mamba (Muundo wa Nafasi…Autoenkoda Zilizofunikwa QLoRA

Vyanzo

Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290. link ↗

Jinsi ya kunukuu ukurasa huu

ScholarGate. (2026, June 3). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. ScholarGate. https://scholargate.app/sw/deep-learning/direct-preference-optimization