Machine learningDeep Learning, Language Models, RLHF Alternatives

Doğrudan Tercih Optimizasyonu

Direct Preference Optimization: Your Language Model is Secretly a Reward Model · Ayrıca şöyle bilinir: DPO, Direct preference

Doğrudan Tercih Optimizasyonu (DPO), Rafailov ve arkadaşları tarafından 2023'te tanıtılan ve açık bir ödül modeli gerektirmeden dil modellerini insan tercihleriyle uyumlu hale getiren bir eğitim yöntemidir. DPO, tercih çiftlerini (daha iyi yanıt vs daha kötü yanıt) doğrudan optimize ederek, insan geri bildiriminden pekiştirmeli öğrenmeye (RLHF) kıyasla eğitim işlem hattını basitleştirir.

Araçlar & kaynaklar

Slaytları indir

Öğren & keşfet

Tam yöntemi oku

Yalnızca üyeler

Bu bölümü okumak için ücretsiz hesapla giriş yapın.

Giriş yap

Yöntem haritası

İlişkili yöntemlerin komşuluğu — keşfetmek için bir düğüm seçin.

Doğrudan Tercih Optimizasyonu

Gizil Yayılım Modelleri Mamba (Durum Uzay Modeli)Masked Autoencoders (MAE)QLoRA

Ne zaman kullanılır

DPO, tercih verilerinin mevcut olduğu ancak ödül etiketlerinin elde edilmesinin pahalı veya zor olduğu durumlar için idealdir. RLHF'den uygulaması daha basittir ve pratikte daha kararlıdır. Açık ödül modellemesinin ek faydalar sağladığı veya tercih verilerinin sınırlı olduğu durumlarda RLHF kullanın. DPO, çeşitli, yüksek kaliteli tercih verileriyle en iyi şekilde çalışır.

Güçlü yönler & sınırlılıklar

Güçlü yönler

RLHF'den daha basit eğitim işlem hattı; ayrı ödül modeli eğitimini ve RL optimizasyonunu ortadan kaldırır
RLHF yaklaşımlarına göre daha az hiperparametre ile daha kararlı eğitim
Vekil ödül sinyalleri olmadan tercih hedeflerinin doğrudan optimizasyonu
Karşılaştırılabilir uyum için RLHF yaklaşımlarından daha az etiket gerektirir

Sınırlılıklar

Tercih çiftleri gerektirir (istem başına iki yanıt), bu da tek yanıt sıralamasından daha fazla etiket çabası olabilir
Performans, tercih verilerinin kalitesine duyarlıdır; gürültülü veya tutarsız etiketler uyumu bozar
Eğitim verilerindeki tercih dağılımına aşırı uyum sağlayabilir; alan kayması performansı etkiler

SSS

DPO, RLHF'den nasıl farklıdır?

RLHF, bir ödül modeli eğitir, ardından ödülleri en üst düzeye çıkarmak için pekiştirmeli öğrenme kullanır. DPO, bir ödül modeli olmadan tercihleri doğrudan optimize eder. DPO, tercih öğrenimini sınıflandırma olarak yeniden formüle eder: tercih edilen çıktılara daha yüksek olasılık atayın. Bu, RLHF'nin iki aşamalı yaklaşımından daha basit, daha kararlı ve genellikle daha örnek-verimlidir.

KL ıraksaklık cezası ne içindir?

KL cezası, modelin tercih optimizasyonu peşinde koşarken referans modelden çok fazla sapmasını önler. KL düzenlemesi olmadan, model yozlaşmış çözümlere çökebilir (örneğin, girdiye bakılmaksızın aynı tercih edilen yanıtı çıktı olarak verme). KL cezası, tercih optimizasyonunu kararlılıkla dengeleyen bir düzenleyici görevi görür.

DPO, tercih verilerinin kalitesine ne kadar duyarlıdır?

DPO, tercih etiketlerinin kalitesine oldukça duyarlıdır. Gürültülü veya tutarsız etiketler kötü uyuma yol açar. Yüksek kaliteli tercihler toplamak, dikkatli açıklayıcı yönergeleri ve açıklayıcılar arası anlaşma kontrolleri gerektirir. Bazı güncel çalışmalar, belirsiz veya çelişkili tercihlerle olasılıksal yaklaşımlar aracılığıyla başa çıkmayı araştırmaktadır.

Kaynaklar

Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290. link ↗

Bu sayfayı kaynak gösterin

ScholarGate. (2026, June 3). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. ScholarGate. https://scholargate.app/tr/deep-learning/direct-preference-optimization

Hangi yöntem?

Bu yöntemi en yakın akrabalarının yanına koyup yan yana okuyun — kütüphane kitapları masaya serer; seçim sizindir.

Gizil Yayılım ModelleriDerin öğrenme↔ karşılaştır
Mamba (Durum Uzay Modeli)Derin öğrenme↔ karşılaştır
Masked Autoencoders (MAE)Derin öğrenme↔ karşılaştır
QLoRADerin öğrenme↔ karşılaştır

Yan yana karşılaştır →

Bu yönteme atıf yapanlar

QLoRA

Benzer yöntemler

İnce Ayarlı Pekiştirmeli Öğrenme GPT İnce Ayarı Zayıf Gözetimli Pekiştirmeli Öğrenme QLoRA Çok Dilli Pekiştirmeli Öğrenme Pekiştirmeli Öğrenme Öz-denetimli Duygu Analizi Politika Gradyan Yöntemleri

İlgili referans kavramlar

Politika Gradyan Yöntemleri Sıralama Öğrenimi Pekiştirmeli Öğrenme Diziden Diziye Modeller ve Transformatörler Soru Cevaplama ve Diyalog Sistemleri Sözcük Türü Etiketleme ve Dizi Etiketleme

Bu sayfada bir hata mı var? Bildir / düzeltme öner →

Doğrudan Tercih Optimizasyonu

Direct Preference Optimization: Your Language Model is Secretly a Reward Model · Ayrıca şöyle bilinir: DPO, Direct preference

Araçlar & kaynaklar

Slaytları indir

Öğren & keşfet

Tam yöntemi oku

Yalnızca üyeler

Bu bölümü okumak için ücretsiz hesapla giriş yapın.

Giriş yap

Yöntem haritası

İlişkili yöntemlerin komşuluğu — keşfetmek için bir düğüm seçin.

Doğrudan Tercih Optimizasyonu

Gizil Yayılım Modelleri Mamba (Durum Uzay Modeli)Masked Autoencoders (MAE)QLoRA

Ne zaman kullanılır

Güçlü yönler & sınırlılıklar

Güçlü yönler

RLHF'den daha basit eğitim işlem hattı; ayrı ödül modeli eğitimini ve RL optimizasyonunu ortadan kaldırır
RLHF yaklaşımlarına göre daha az hiperparametre ile daha kararlı eğitim
Vekil ödül sinyalleri olmadan tercih hedeflerinin doğrudan optimizasyonu
Karşılaştırılabilir uyum için RLHF yaklaşımlarından daha az etiket gerektirir

Sınırlılıklar

Tercih çiftleri gerektirir (istem başına iki yanıt), bu da tek yanıt sıralamasından daha fazla etiket çabası olabilir
Performans, tercih verilerinin kalitesine duyarlıdır; gürültülü veya tutarsız etiketler uyumu bozar
Eğitim verilerindeki tercih dağılımına aşırı uyum sağlayabilir; alan kayması performansı etkiler

SSS

DPO, RLHF'den nasıl farklıdır?

KL ıraksaklık cezası ne içindir?

DPO, tercih verilerinin kalitesine ne kadar duyarlıdır?

Kaynaklar

Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290. link ↗

Bu sayfayı kaynak gösterin

ScholarGate. (2026, June 3). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. ScholarGate. https://scholargate.app/tr/deep-learning/direct-preference-optimization

Bu yönteme atıf yapanlar

QLoRA