Machine learningDeep learning / NLP / CV

Kendi Kendine Denetimli Pekiştirmeli Öğrenme

Self-supervised Reinforcement Learning (SSL-augmented RL) · Ayrıca şöyle bilinir: SSL-RL, self-supervised RL, representation-based reinforcement learning, auxiliary-task RL

Kendi Kendine Denetimli Pekiştirmeli Öğrenme (KKD-PÖ), standart pekiştirmeli öğrenme (PÖ) eğitimini, ajanın kendi deneyimine uygulanan karşılaştırmalı, tahmine dayalı veya veri büyütmeye dayalı görevler gibi kendi kendine denetimli yardımcı hedeflerle zenginleştirir. Bu hedefler, ek insan etiketlerine ihtiyaç duymadan öğrenilen temsillerin kalitesini artırarak, özellikle ham pikseller gibi yüksek boyutlu gözlem uzaylarında daha hızlı yakınsama ve daha iyi örnek verimliliği sağlar.

Araçlar & kaynaklar

Slaytları indir

Öğren & keşfet

Tam yöntemi oku

Yalnızca üyeler

Bu bölümü okumak için ücretsiz hesapla giriş yapın.

Giriş yap

Yöntem haritası

İlişkili yöntemlerin komşuluğu — keşfetmek için bir düğüm seçin.

Kendi Kendine Denetimli Pekiştirmeli Öğrenme

Pekiştirmeli Öğrenme Öz-Denetimli Evrişimsel…Yarı denetimli Pekiştirm…Pekiştirmeli Öğrenme ile…İnce Ayarlı Pekiştirmeli…Çok Modlu Pekiştirmeli Ö…Zayıf Gözetimli Pekiştir…

Ne zaman kullanılır

Örnek verimliliğinin bir darboğaz olduğu yüksek boyutlu gözlemler (görüntüler, nokta bulutları, çoklu sensör dizileri) üzerinde derin PÖ ajanı eğitirken KKD-PÖ kullanın. Özellikle çevre etkileşimleri maliyetli olduğunda (robotik, sınırlı verime sahip simülatörler) veya ödül sinyali seyrek olduğunda değerlidir. Durum düşük boyutlu ve iyi yapılandırılmış olduğunda (örneğin, tam durum erişimi olan klasik kontrol), denetimli ön eğitim için etiketli yardımcı veri mevcut olduğunda veya görev aşırı derecede basit olduğunda ve standart bir PÖ temel çizgisi zaten hızlı bir şekilde yakınsadığında KKD-PÖ'ye gerek yoktur.

Güçlü yönler & sınırlılıklar

Güçlü yönler

Ekstra çevre adımları olmadan görüntü tabanlı PÖ'de örnek verimliliğini önemli ölçüde artırır.
Ekstra insan etiketine gerek yoktur; kendi kendine denetimli sinyal doğrudan ajanın deneyiminden gelir.
Çoğu modern PÖ algoritmasıyla (SAC, DQN, PPO) bir eklenti yardımcı hedef olarak uyumludur.
Görsel dikkat dağıtıcılara veya dağılımı değişmiş ortamlara daha iyi genelleme yapan temsilleri teşvik eder.
Piksel tabanlı ve durum tabanlı PÖ arasındaki boşluğu azaltarak, görme tabanlı kontrolü daha pratik hale getirir.

Sınırlılıklar

Uygulama karmaşıklığı ekler: yardımcı kayıp tasarımı, büyütme boru hatları ve kayıp ağırlıklandırması ayarlanmalıdır.
Gözlemler zaten düşük boyutlu yapılandırılmış durum vektörleri olduğunda faydaları azalır.
CURL gibi karşılaştırmalı yöntemler, bir momentum kodlayıcı ve büyük bir negatif örnek kümesi gerektirerek bellek maliyetini artırır.
Tahmin için faydalı temsiller kontrol için faydalı değilse, KKD hedefi PÖ hedefiyle çelişebilir.

SSS

Kendi kendine denetimli PÖ ile PÖ'de transfer öğrenimi arasındaki fark nedir?

PÖ'de transfer öğrenimi, bir modeli kaynak bir görev üzerinde önceden eğitir ve hedef bir göreve aktarır. Kendi kendine denetimli PÖ, temsili, ajanın kendi mevcut görev deneyiminden türetilen yardımcı görevler kullanarak eğitir, ayrı bir kaynak alanı veya ön eğitim aşaması olmaksızın.

Hangi kendi kendine denetimli hedefi seçmeliyim?

Karşılaştırmalı yöntemler (CURL) görsel gözlemler için iyi çalışır. Veri büyütme (RAD) basittir ve geniş çapta etkilidir. Tahmine dayalı veya dünya modeli hedefleri (Dreamer, SPR) daha güçlü ancak daha karmaşıktır. Çoğu piksel tabanlı kontrol görevi için RAD veya CURL pratik başlangıç noktalarıdır.

KKD-PÖ seyrek ödüllere yardımcı olur mu?

Evet, bu en güçlü kullanım durumlarından biridir. Temsili KKD hedefiyle şekillendirerek, ajan ödül sinyalleri gelmeden önce faydalı özellikler geliştirir, böylece erken keşfi etkili bir şekilde yönlendirir ve soğuk başlangıç sorununu azaltır.

KKD-PÖ standart PÖ'den daha fazla hesaplama gücü gerektirir mi?

Evet, mütevazı bir şekilde. Yardımcı hedef, bir ileri geçiş ve gradyan hesaplaması ekler. Pratikte, ek hesaplama, aynı performansı çok daha az çevre adımında elde ederek dengelenir, ki bu genellikle PÖ'deki baskın maliyettir.

KKD-PÖ'yü model tabanlı PÖ ile birleştirebilir miyim?

Evet — Dreamer gibi dünya modelleri, tahmine dayalı kendi kendine denetimli hedefleri doğal olarak içerir. Öğrenilmiş bir dünya modelini karşılaştırmalı veya yeniden yapılandırma tabanlı KKD ile birleştirmek aktif bir araştırma yönüdür ve karmaşık görsel görevlerde güçlü sonuçlar göstermiştir.

Kaynaklar

Laskin, M., Srinivas, A., & Abbeel, P. (2020). CURL: Contrastive Unsupervised Representations for Reinforcement Learning. Proceedings of the 37th International Conference on Machine Learning (ICML), PMLR 119, 5639–5650. link ↗
Laskin, M., Lee, K., Stooke, A., Pinto, L., Abbeel, P., & Srinivas, A. (2021). Reinforcement Learning with Augmented Data. Advances in Neural Information Processing Systems (NeurIPS), 33, 19884–19895. link ↗

Bu sayfayı kaynak gösterin

ScholarGate. (2026, June 3). Self-supervised Reinforcement Learning (SSL-augmented RL). ScholarGate. https://scholargate.app/tr/deep-learning/self-supervised-reinforcement-learning

Hangi yöntem?

Bu yöntemi en yakın akrabalarının yanına koyup yan yana okuyun — kütüphane kitapları masaya serer; seçim sizindir.

Pekiştirmeli ÖğrenmeDerin öğrenme↔ karşılaştır
Öz-Denetimli Evrişimsel Sinir AğıDerin öğrenme↔ karşılaştır
Yarı denetimli Pekiştirmeli ÖğrenmeDerin öğrenme↔ karşılaştır
Pekiştirmeli Öğrenme ile Transfer ÖğrenmesiDerin öğrenme↔ karşılaştır

Yan yana karşılaştır →

Bu yönteme atıf yapanlar

İnce Ayarlı Pekiştirmeli Öğrenme Çok Modlu Pekiştirmeli Öğrenme Yarı denetimli Pekiştirmeli Öğrenme Zayıf Gözetimli Pekiştirmeli Öğrenme

Benzer yöntemler

Yarı denetimli Pekiştirmeli Öğrenme Öz-denetimli Öğrenme Öz-denetimli Aktarmalı Öğrenme Öz-denetimli Az Örnekli Öğrenme Kendi Kendine Denetimli Görüntü Sınıflandırma Öz-denetimli Aktif Öğrenme Çevrimiçi Kendi Kendine Gözetimli Öğrenme Aktif Öğrenme ile Öz-Denetimli Öğrenme

İlgili referans kavramlar

Öz-Denetimli ve Temsil Öğrenimi Pekiştirmeli Öğrenme Derin Pekiştirmeli Öğrenme Denetimsiz Öğrenme Politika Gradyan Yöntemleri Değer Tabanlı Yöntemler

Bu sayfada bir hata mı var? Bildir / düzeltme öner →

Kendi Kendine Denetimli Pekiştirmeli Öğrenme

Self-supervised Reinforcement Learning (SSL-augmented RL) · Ayrıca şöyle bilinir: SSL-RL, self-supervised RL, representation-based reinforcement learning, auxiliary-task RL

Araçlar & kaynaklar

Slaytları indir

Öğren & keşfet

Tam yöntemi oku

Yalnızca üyeler

Bu bölümü okumak için ücretsiz hesapla giriş yapın.

Giriş yap

Ne zaman kullanılır

Güçlü yönler & sınırlılıklar

Güçlü yönler

Ekstra çevre adımları olmadan görüntü tabanlı PÖ'de örnek verimliliğini önemli ölçüde artırır.
Ekstra insan etiketine gerek yoktur; kendi kendine denetimli sinyal doğrudan ajanın deneyiminden gelir.
Çoğu modern PÖ algoritmasıyla (SAC, DQN, PPO) bir eklenti yardımcı hedef olarak uyumludur.
Görsel dikkat dağıtıcılara veya dağılımı değişmiş ortamlara daha iyi genelleme yapan temsilleri teşvik eder.
Piksel tabanlı ve durum tabanlı PÖ arasındaki boşluğu azaltarak, görme tabanlı kontrolü daha pratik hale getirir.

Sınırlılıklar

Uygulama karmaşıklığı ekler: yardımcı kayıp tasarımı, büyütme boru hatları ve kayıp ağırlıklandırması ayarlanmalıdır.
Gözlemler zaten düşük boyutlu yapılandırılmış durum vektörleri olduğunda faydaları azalır.
CURL gibi karşılaştırmalı yöntemler, bir momentum kodlayıcı ve büyük bir negatif örnek kümesi gerektirerek bellek maliyetini artırır.
Tahmin için faydalı temsiller kontrol için faydalı değilse, KKD hedefi PÖ hedefiyle çelişebilir.

SSS

Kendi kendine denetimli PÖ ile PÖ'de transfer öğrenimi arasındaki fark nedir?

Hangi kendi kendine denetimli hedefi seçmeliyim?

KKD-PÖ seyrek ödüllere yardımcı olur mu?

KKD-PÖ standart PÖ'den daha fazla hesaplama gücü gerektirir mi?

KKD-PÖ'yü model tabanlı PÖ ile birleştirebilir miyim?

Kaynaklar

Laskin, M., Srinivas, A., & Abbeel, P. (2020). CURL: Contrastive Unsupervised Representations for Reinforcement Learning. Proceedings of the 37th International Conference on Machine Learning (ICML), PMLR 119, 5639–5650. link ↗
Laskin, M., Lee, K., Stooke, A., Pinto, L., Abbeel, P., & Srinivas, A. (2021). Reinforcement Learning with Augmented Data. Advances in Neural Information Processing Systems (NeurIPS), 33, 19884–19895. link ↗

Bu sayfayı kaynak gösterin

ScholarGate. (2026, June 3). Self-supervised Reinforcement Learning (SSL-augmented RL). ScholarGate. https://scholargate.app/tr/deep-learning/self-supervised-reinforcement-learning