Optimisasi Preferensi Langsung
Optimisasi Preferensi Langsung (DPO) adalah metode pelatihan yang diperkenalkan oleh Rafailov et al. pada tahun 2023 yang menyelaraskan model bahasa dengan preferensi manusia tanpa memerlukan model imbalan (reward model) eksplisit. Dengan mengoptimalkan secara langsung pasangan preferensi (respons lebih baik vs respons lebih buruk), DPO menyederhanakan alur kerja pelatihan dibandingkan dengan pembelajaran penguatan dari umpan balik manusia (RLHF).
Baca metode selengkapnya
Masuk dengan akun gratis untuk membaca bagian ini.
Method map
The neighbourhood of related methods — select a node to explore.
Sumber
- Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290. link ↗
Cara menyitasi halaman ini
ScholarGate. (2026, June 3). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. ScholarGate. https://scholargate.app/id/deep-learning/direct-preference-optimization
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Model Difusi LatenPembelajaran Mendalam↔ compare
- Mamba (Model Ruang Keadaan)Pembelajaran Mendalam↔ compare
- Autoenkoder BertopengPembelajaran Mendalam↔ compare
- QLoRAPembelajaran Mendalam↔ compare
Dirujuk oleh
Menemukan masalah di halaman ini? Laporkan atau usulkan perbaikan →