Otsene eelistuste optimeerimine
Otsene eelistuste optimeerimine (DPO) on Rafailov et al. (2023) poolt tutvustatud treeningmeetod, mis viib keelemudelid vastavusse inimlike eelistustega, ilma et oleks vaja eksplitsiitset tasumudelit. Eelistuspaaride (parem vastus vs halvem vastus) otsese optimeerimise kaudu lihtsustab DPO treeningprotsessi võrreldes inimtagasiside põhjal tugevdamisõppega (RLHF).
Loe meetodi täielikku kirjeldust
Selle osa lugemiseks logi sisse tasuta kontoga.
Method map
The neighbourhood of related methods — select a node to explore.
Allikad
- Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290. link ↗
Kuidas sellele lehele viidata
ScholarGate. (2026, June 3). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. ScholarGate. https://scholargate.app/et/deep-learning/direct-preference-optimization
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Latentsed difusioonimudelidSüvaõpe↔ compare
- Mamba (oleku-ruumi mudel)Süvaõpe↔ compare
- Maskeeritud autoenkoodridSüvaõpe↔ compare
- QLoRASüvaõpe↔ compare
Sellele viitavad
Märkasid sellel lehel viga? Teata sellest või paku parandust →