Direct Preference Optimization
Direct Preference Optimization (DPO) ialah kaedah latihan yang diperkenalkan oleh Rafailov et al. pada tahun 2023 yang menyelaraskan model bahasa dengan keutamaan manusia tanpa memerlukan model ganjaran eksplisit. Dengan mengoptimumkan pasangan keutamaan secara langsung (respons yang lebih baik vs respons yang lebih buruk), DPO mempermudah saluran latihan berbanding pembelajaran pengukuhan daripada maklum balas manusia (RLHF).
Baca kaedah sepenuhnya
Log masuk dengan akaun percuma untuk membaca bahagian ini.
Method map
The neighbourhood of related methods — select a node to explore.
Sumber
- Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290. link ↗
Cara memetik halaman ini
ScholarGate. (2026, June 3). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. ScholarGate. https://scholargate.app/ms/deep-learning/direct-preference-optimization
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Model Penyerakan TerpendamPembelajaran Mendalam↔ compare
- Mamba (Model Ruang Keadaan)Pembelajaran Mendalam↔ compare
- Autoenkoder BertopengPembelajaran Mendalam↔ compare
- QLoRAPembelajaran Mendalam↔ compare
Dirujuk oleh
Terjumpa masalah pada halaman ini? Laporkan atau cadangkan pembetulan →