Machine learningReinforcement learning

Q-Öğrenme

Q-Learning (Off-Policy Temporal-Difference Control) · Ayrıca şöyle bilinir: Q-learning algorithm, tabular Q-learning, off-policy TD control, Q-öğrenme

Christopher Watkins ve Peter Dayan tarafından 1992'de tanıtılan Q-öğrenme, çevrenin bir modeline sahip olmadan, yalnızca deneyimden yola çıkarak her durumda her eylemi gerçekleştirmenin değerini — Q-fonksiyonunu — öğrenen model-serbest bir pekiştirmeli öğrenme algoritmasıdır. Politika dışıdır: keşifsel bir davranış politikası izlerken optimal eylem değerlerini öğrenir ve standart koşullar altında optimal politikaya kanıtlanabilir şekilde yakınsar.

Araçlar & kaynaklar

Slaytları indir

Öğren & keşfet

Tam yöntemi oku

Yalnızca üyeler

Bu bölümü okumak için ücretsiz hesapla giriş yapın.

Giriş yap

Yöntem haritası

İlişkili yöntemlerin komşuluğu — keşfetmek için bir düğüm seçin.

Q-Öğrenme

Derin Pekiştirmeli Öğren…Dinamik Programlama Politika Gradyan Yönteml…

Ne zaman kullanılır

Geçişleri ve ödülleri örnekleyebildiğiniz ancak dinamikler hakkında bir modelinizin olmadığı (veya güvenilmez) olduğu durumlar olarak çerçevelenen sıralı karar verme problemleri için Q-öğrenmeyi kullanın — kontrol, oyunlar, yönlendirme, zamanlama ve uyarlanabilir sistemler. Tablosal Q-öğrenme, küçük, ayrık durum-eylem alanları için uygundur ve yeterli keşif ve azalan adım boyutu verildiğinde optimuma yakınsar. Büyük veya sürekli alanlar için tablo, bir fonksiyon yaklaştırıcı (Derin Q-Ağları) ile değiştirilir. Markov özelliğini ve durağan bir ortamı varsayar, örnek açısından verimsiz olabilir ve max operatörü, Çift Q-öğrenme gibi varyantlarla ele alınan iyimser (maksimum) bir yanlılık indükler. İstatiksel veya sürekli eylem politikası gerektiğinde, politika gradyan yöntemleri alternatiftir.

Güçlü yönler & sınırlılıklar

Güçlü yönler

Model-serbest: geçiş/ödül modeli gerektirmez, yalnızca örneklenmiş deneyim gerektirir.
Politika dışı: başka bir politika ile keşif yaparken optimal politikayı öğrenir.
Standart koşullar altında optimal eylem değerlerine kanıtlanabilir şekilde yakınsar.
Basit, temel ve Derin Q-Ağları ile birçok uzantının temelini oluşturur.

Sınırlılıklar

Tablosal form, büyük veya sürekli durum/eylem alanlarına ölçeklenmez.
Örnek açısından verimsiz; yakınsama için birçok bölüm gerekebilir.
Maks operatöründen kaynaklanan maksimizasyon yanlılığı (aşırı tahmin); Çift Q-öğrenme ile azaltılır.
Durağan bir Markov karar süreci varsayar; kısmi gözlemlenebilirlik veya sürüklenme altında zorlanır.

SSS

Q-öğrenmede 'politika dışı' ne anlama gelir?

Bu, Q-öğrenmenin optimal politikanın değerini, ajan farklı (keşifsel) bir davranış politikası izlerken öğrendiği anlamına gelir. Güncelleme hedefleri r + γ·max Q(s', a') — yani en iyi sonraki eylem — gerçekten alınan eylem değil, bu nedenle keşif öğrenilen optimumu yanlı hale getirmez.

Q-öğrenme Derin Q-Ağları (DQN) ile nasıl ilişkilidir?

DQN, Q-tablosunu, Q(s, a)'yı yaklaştıran derin bir sinir ağı ile değiştirerek, büyük veya sürekli (örneğin, piksel) durum alanlarında Q-öğrenmeyi mümkün kılar. Deneyim tekrarı ve hedef ağ gibi dengeleyici hileler ekler — ancak temel öğrenme kuralı Q-öğrenmenin zamansal fark güncellemesidir.

Q-öğrenme neden değerleri aşırı tahmin eder?

Güncellemedeki max operatörü, özellikle gürültülü ödüllerle, Q'yu yukarı doğru yanlı hale getiren aşırı iyimser tahminleri seçme eğilimindedir. Çift Q-öğrenme, iki tahminci kullanarak eylem seçimini değer değerlendirmesinden ayırarak bunu azaltır ve daha az yanlı ve genellikle daha iyi politikalar sağlar.

Kaynaklar

Watkins, C. J. C. H., & Dayan, P. (1992). Q-learning. Machine Learning, 8(3–4), 279–292. DOI: 10.1007/BF00992698 ↗
Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6

Bu sayfayı kaynak gösterin

ScholarGate. (2026, June 2). Q-Learning (Off-Policy Temporal-Difference Control). ScholarGate. https://scholargate.app/tr/machine-learning/q-learning

Hangi yöntem?

Bu yöntemi en yakın akrabalarının yanına koyup yan yana okuyun — kütüphane kitapları masaya serer; seçim sizindir.

Derin Pekiştirmeli ÖğrenmeDerin öğrenme↔ karşılaştır
Dinamik ProgramlamaOptimizasyon↔ karşılaştır
Politika Gradyan YöntemleriMakine öğrenmesi↔ karşılaştır

Yan yana karşılaştır →

Bu yönteme atıf yapanlar

Politika Gradyan Yöntemleri

Benzer yöntemler

Pekiştirmeli Öğrenme Derin Pekiştirmeli Öğrenme Politika Gradyan Yöntemleri Bayes Dinamik Programlama Zayıf Gözetimli Pekiştirmeli Öğrenme Stokastik Dinamik Programlama Pekiştirmeli Öğrenme ile Transfer Öğrenmesi İnce Ayarlı Pekiştirmeli Öğrenme

İlgili referans kavramlar

Değer Tabanlı Yöntemler Pekiştirmeli Öğrenme Derin Pekiştirmeli Öğrenme Markov Karar Süreçleri Politika Gradyan Yöntemleri Ardışık Karar Verme (MDP'ler)

Bu sayfada bir hata mı var? Bildir / düzeltme öner →

Q-Öğrenme

Q-Learning (Off-Policy Temporal-Difference Control) · Ayrıca şöyle bilinir: Q-learning algorithm, tabular Q-learning, off-policy TD control, Q-öğrenme

Araçlar & kaynaklar

Slaytları indir

Öğren & keşfet

Tam yöntemi oku

Yalnızca üyeler

Bu bölümü okumak için ücretsiz hesapla giriş yapın.

Giriş yap

Ne zaman kullanılır

Güçlü yönler & sınırlılıklar

Güçlü yönler

Model-serbest: geçiş/ödül modeli gerektirmez, yalnızca örneklenmiş deneyim gerektirir.
Politika dışı: başka bir politika ile keşif yaparken optimal politikayı öğrenir.
Standart koşullar altında optimal eylem değerlerine kanıtlanabilir şekilde yakınsar.
Basit, temel ve Derin Q-Ağları ile birçok uzantının temelini oluşturur.

Sınırlılıklar

Tablosal form, büyük veya sürekli durum/eylem alanlarına ölçeklenmez.
Örnek açısından verimsiz; yakınsama için birçok bölüm gerekebilir.
Maks operatöründen kaynaklanan maksimizasyon yanlılığı (aşırı tahmin); Çift Q-öğrenme ile azaltılır.
Durağan bir Markov karar süreci varsayar; kısmi gözlemlenebilirlik veya sürüklenme altında zorlanır.

SSS

Q-öğrenmede 'politika dışı' ne anlama gelir?

Q-öğrenme Derin Q-Ağları (DQN) ile nasıl ilişkilidir?

Q-öğrenme neden değerleri aşırı tahmin eder?

Kaynaklar

Watkins, C. J. C. H., & Dayan, P. (1992). Q-learning. Machine Learning, 8(3–4), 279–292. DOI: 10.1007/BF00992698 ↗
Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6

Bu sayfayı kaynak gösterin

ScholarGate. (2026, June 2). Q-Learning (Off-Policy Temporal-Difference Control). ScholarGate. https://scholargate.app/tr/machine-learning/q-learning