Machine learningDeep learning / NLP / CV

Zayıf Gözetimli Pekiştirmeli Öğrenme

Weakly Supervised Reinforcement Learning · Ayrıca şöyle bilinir: WSRL, weak-reward RL, imperfect-reward reinforcement learning, reward-impoverished RL

Zayıf gözetimli pekiştirmeli öğrenme (WSRL), ödül sinyalinin kusurlu, seyrek, gecikmeli veya yalnızca kısmen bilgilendirici olduğu ortamlarda ajanları eğitir; bu, yoğun tam gözetimli RL'nin aksinedir. Ajan, eksik geri bildirimlere rağmen, zayıf gözetimi telafi etmek için yardımcı sinyaller, ödül modellemesi veya tercih öğrenmesi kullanarak etkili politikalar öğrenmelidir.

Araçlar & kaynaklar

Slaytları indir

Öğren & keşfet

Tam yöntemi oku

Yalnızca üyeler

Bu bölümü okumak için ücretsiz hesapla giriş yapın.

Giriş yap

Yöntem haritası

İlişkili yöntemlerin komşuluğu — keşfetmek için bir düğüm seçin.

Zayıf Gözetimli Pekiştirmeli Öğrenme

Pekiştirmeli Öğrenme Kendi Kendine Denetimli…Yarı denetimli Pekiştirm…

Ne zaman kullanılır

Kesin bir ödül fonksiyonu belirtilemediği ancak bir tür zayıf geri bildirim mevcut olduğunda WSRL'yi kullanın — örneğin, seyrek bölüm sonu puanları, insan tercih derecelendirmeleri, gürültülü sensör okumaları veya açık ödül etiketleri olmayan gösterimler. Robotik, oyun oynayan ajanlar, diyalog sistemleri ve yoğun ödül mühendisliğinin pratik olmadığı öneri senaryoları için uygundur. Doğrudan hesaplanabilen iyi tanımlanmış, yoğun ve doğru bir ödül sinyalinin olduğu durumlarda bundan kaçının, çünkü standart RL daha hızlı ve daha güvenilir bir şekilde yakınsayacaktır. Ayrıca, mevcut zayıf geri bildirim o kadar seyrek veya güvenilmezse, aşırı insan ek açıklaması maliyeti olmadan hiçbir ödül modelinin öğrenilemeyeceği durumlarda da bundan kaçının.

Güçlü yönler & sınırlılıklar

Güçlü yönler

Yoğun, doğru ödüllerin mevcut olmadığı veya belirtilmesinin pahalı olduğu gerçekçi ortamlarda RL'yi etkinleştirir.
Tercihe dayalı varyantlar, açık ödül mühendisliği gerektirmeden ajan davranışını insan niyetiyle uyumlu hale getirir.
Dönüştürücüler ve CNN'ler dahil olmak üzere derin sinirsel politika mimarileriyle uyumludur.
Ödül modellemesi, daha fazla geri bildirim toplandıkça artımlı olarak güncellenebilir.
Gerçek insan yargılarından öğrenerek el yapımı vekil ajanlara kıyasla ödül hackleme riskini azaltır.
Robotik, NLP, oyun ajanları, öneri sistemleri gibi çeşitli alanlarda uygulanabilir.

Sınırlılıklar

Ödül modeli tahmini, politika optimizasyon hatalarını birleştirebilen ek bir hata kaynağı getirir.
İnsanlardan tercih elde etmek maliyetli, yavaş ve başvuranlar arasında tutarsız olabilir.
Gürültülü eğitim sinyali nedeniyle yakınsama, tam gözetimli RL'den tipik olarak daha yavaştır.
Seyrek ödül ortamlarını kapsamak için uygun keşif bonusları tasarlamak alan uzmanlığı gerektirir.
Teorik garantiler, bilinen ödül fonksiyonlarına sahip standart RL'ye göre daha zayıftır.

SSS

Zayıf gözetimli RL'yi yarı gözetimli RL'den ayıran nedir?

Yarı gözetimli RL tipik olarak, küçük bir etiketli (ödüllü) veri kümesini büyük bir etiketsiz (ödülsüz) veri kümesiyle birleştirmeyi ifade eder, bu da yarı gözetimli sınıflandırmaya benzer. Zayıf gözetimli RL, etiketlenmiş geçişlerin oranından ziyade — ödül sinyalinin kalitesine — gürültülü, kaba veya tercihe dayalı olabileceğine özel olarak odaklanır.

RLHF (insan geri bildiriminden pekiştirmeli öğrenme) zayıf gözetimli RL'nin bir biçimi midir?

Evet. RLHF, zayıf gözetimli RL'nin en belirgin uygulamalı örneğidir: insan tercih karşılaştırmaları bir gerçek ödül fonksiyonunun yerini alır, bu tercihlerden bir ödül modeli öğrenilir ve buna karşı bir politika optimize edilir.

Tipik olarak kaç insan tercih etiketi gereklidir?

Christiano ve diğerleri (2017), Atari ve MuJoCo görevlerinde birkaç yüz ila birkaç bin çift karşılaştırma ile etkili öğrenme gösterdiler. Gerekli sayı, görev karmaşıklığı ve tercih gürültüsü ile artar; aktif öğrenme stratejileri bütçeyi önemli ölçüde azaltabilir.

İçsel motivasyon zayıf dışsal ödüllerle birleştirilebilir mi?

Evet ve bu yaygın bir uygulamadır. Merak güdümlü veya sayım tabanlı içsel bonuslar, seyrek ödül ortamlarında keşfi teşvik eder ve bilgilendirici dışsal geri bildirim eksikliğini telafi eden yoğun bir yardımcı sinyal sağlar.

WSRL için hangi değerlendirme metriği uygundur?

Öğrenilen ödül, gerçek görev başarısını mükemmel bir şekilde takip etmeyebileceğinden, politikaları yalnızca ödül modeli puanları yerine gerçek görev metriği (örneğin, görev tamamlama oranı, insan tercih kazanma oranı) üzerinde değerlendirin.

Kaynaklar

Sutton, R. S. & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6
Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S. & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems (NeurIPS), 30. link ↗

Bu sayfayı kaynak gösterin

ScholarGate. (2026, June 3). Weakly Supervised Reinforcement Learning. ScholarGate. https://scholargate.app/tr/deep-learning/weakly-supervised-reinforcement-learning

Hangi yöntem?

Bu yöntemi en yakın akrabalarının yanına koyup yan yana okuyun — kütüphane kitapları masaya serer; seçim sizindir.

Pekiştirmeli ÖğrenmeDerin öğrenme↔ karşılaştır
Kendi Kendine Denetimli Pekiştirmeli ÖğrenmeDerin öğrenme↔ karşılaştır
Yarı denetimli Pekiştirmeli ÖğrenmeDerin öğrenme↔ karşılaştır

Yan yana karşılaştır →

Bu yönteme atıf yapanlar

Yarı denetimli Pekiştirmeli Öğrenme

Benzer yöntemler

Pekiştirmeli Öğrenme Yarı denetimli Pekiştirmeli Öğrenme İnce Ayarlı Pekiştirmeli Öğrenme Kendi Kendine Denetimli Pekiştirmeli Öğrenme Zayıf Denetimli Çok Katmanlı Algılayıcı Zayıf Denetimli Metin Özetleme Zayıf Gözetimli Transformer Çok Dilli Pekiştirmeli Öğrenme

İlgili referans kavramlar

Pekiştirmeli Öğrenme Derin Pekiştirmeli Öğrenme Politika Gradyan Yöntemleri Değer Tabanlı Yöntemler Öz-Denetimli ve Temsil Öğrenimi Sıralama Öğrenimi

Bu sayfada bir hata mı var? Bildir / düzeltme öner →

Machine learningDeep learning / NLP / CV

Zayıf Gözetimli Pekiştirmeli Öğrenme

Weakly Supervised Reinforcement Learning · Ayrıca şöyle bilinir: WSRL, weak-reward RL, imperfect-reward reinforcement learning, reward-impoverished RL

Araçlar & kaynaklar

Slaytları indir

Öğren & keşfet

Tam yöntemi oku

Yalnızca üyeler

Bu bölümü okumak için ücretsiz hesapla giriş yapın.

Giriş yap

Yöntem haritası

İlişkili yöntemlerin komşuluğu — keşfetmek için bir düğüm seçin.

Zayıf Gözetimli Pekiştirmeli Öğrenme

Pekiştirmeli Öğrenme Kendi Kendine Denetimli…Yarı denetimli Pekiştirm…

Ne zaman kullanılır

Güçlü yönler & sınırlılıklar

Güçlü yönler

Yoğun, doğru ödüllerin mevcut olmadığı veya belirtilmesinin pahalı olduğu gerçekçi ortamlarda RL'yi etkinleştirir.
Tercihe dayalı varyantlar, açık ödül mühendisliği gerektirmeden ajan davranışını insan niyetiyle uyumlu hale getirir.
Dönüştürücüler ve CNN'ler dahil olmak üzere derin sinirsel politika mimarileriyle uyumludur.
Ödül modellemesi, daha fazla geri bildirim toplandıkça artımlı olarak güncellenebilir.
Gerçek insan yargılarından öğrenerek el yapımı vekil ajanlara kıyasla ödül hackleme riskini azaltır.
Robotik, NLP, oyun ajanları, öneri sistemleri gibi çeşitli alanlarda uygulanabilir.

Sınırlılıklar

Ödül modeli tahmini, politika optimizasyon hatalarını birleştirebilen ek bir hata kaynağı getirir.
İnsanlardan tercih elde etmek maliyetli, yavaş ve başvuranlar arasında tutarsız olabilir.
Gürültülü eğitim sinyali nedeniyle yakınsama, tam gözetimli RL'den tipik olarak daha yavaştır.
Seyrek ödül ortamlarını kapsamak için uygun keşif bonusları tasarlamak alan uzmanlığı gerektirir.
Teorik garantiler, bilinen ödül fonksiyonlarına sahip standart RL'ye göre daha zayıftır.

SSS

Zayıf gözetimli RL'yi yarı gözetimli RL'den ayıran nedir?

RLHF (insan geri bildiriminden pekiştirmeli öğrenme) zayıf gözetimli RL'nin bir biçimi midir?

Tipik olarak kaç insan tercih etiketi gereklidir?

İçsel motivasyon zayıf dışsal ödüllerle birleştirilebilir mi?

WSRL için hangi değerlendirme metriği uygundur?

Kaynaklar

Sutton, R. S. & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6
Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S. & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems (NeurIPS), 30. link ↗

Bu sayfayı kaynak gösterin

ScholarGate. (2026, June 3). Weakly Supervised Reinforcement Learning. ScholarGate. https://scholargate.app/tr/deep-learning/weakly-supervised-reinforcement-learning

Hangi yöntem?

Bu yöntemi en yakın akrabalarının yanına koyup yan yana okuyun — kütüphane kitapları masaya serer; seçim sizindir.

Pekiştirmeli ÖğrenmeDerin öğrenme↔ karşılaştır
Kendi Kendine Denetimli Pekiştirmeli ÖğrenmeDerin öğrenme↔ karşılaştır
Yarı denetimli Pekiştirmeli ÖğrenmeDerin öğrenme↔ karşılaştır

Yan yana karşılaştır →

Bu yönteme atıf yapanlar

Yarı denetimli Pekiştirmeli Öğrenme

Benzer yöntemler

İlgili referans kavramlar

Pekiştirmeli Öğrenme Derin Pekiştirmeli Öğrenme Politika Gradyan Yöntemleri Değer Tabanlı Yöntemler Öz-Denetimli ve Temsil Öğrenimi Sıralama Öğrenimi

Bu sayfada bir hata mı var? Bildir / düzeltme öner →