Değer Tabanlı Yöntemler
Değer tabanlı yöntemler, durumların ve eylemlerin ne kadar iyi olduğunu öğrenmekte, ardından iyi bir politika elde etmek için bu tahminlere göre açgözlü bir şekilde hareket etmektedir.
Tanım
Değer tabanlı yöntemler, durumların veya durum-eylem çiftlerinin beklenen getirilerini tahmin etmekte ve en yüksek tahmini değere sahip eylemleri seçerek bir politika türetmektedir; bu tahminleri deneyimlerden kademeli olarak öğrenmekte, genellikle bir tahmini daha sonraki, daha bilgili bir tahmine doğru ayarlayan zamansal fark güncellemeleri aracılığıyla gerçekleştirmektedirler.
Kapsam
Bu konu, değer fonksiyonlarına odaklanan pekiştirmeli öğrenme algoritmalarını kapsamaktadır: tamamlanmış bölümlerden Monte Carlo tahmini, sonraki tahminlerden önyükleme (bootstrapping) yapan zamansal fark öğrenmesi ve Sarsa ile Q-öğrenme kontrol algoritmaları. Ayrıca, politika içi (on-policy) ve politika dışı (off-policy) öğrenme, epsilon-açgözlü (epsilon-greedy) gibi stratejiler aracılığıyla keşif ve durumların sayılamayacak kadar çok olduğu durumlarda fonksiyon yaklaşımının kullanımı ele alınmaktadır.
Temel sorular
- Eylem değerleri deneyimlerden nasıl öğrenilmektedir?
- Zamansal fark öğrenmesi, örneklemeyi önyükleme (bootstrapping) ile nasıl birleştirmektedir?
- Politika içi (on-policy) ve politika dışı (off-policy) öğrenme arasındaki fark nedir?
- Değer tahminlerine göre açgözlü bir şekilde hareket edilirken keşif nasıl ele alınmaktadır?
Temel kuramlar
- Zamansal fark öğrenmesi
- Zamansal fark yöntemleri, gözlemlenen ödüle ve bir sonraki durumun indirgenmiş tahminine doğru bir değer tahminini güncellemekte, çevrenin bir modeli olmadan eksik bölümlerden çevrimiçi olarak öğrenmektedir.
- Q-öğrenme
- Q-öğrenme, her durumdaki en iyi eylemin değerini tahmin etmekte ve deneyim toplamak için kullanılan politikadan bağımsız olarak optimal eylem-değer fonksiyonuna yakınsamaktadır, bu da onu temel bir politika dışı yöntem haline getirmektedir.
- Derin ağlarla değer yaklaşımı
- Eylem-değer fonksiyonunu derin bir ağ ile temsil etmek, değer tabanlı yöntemlerin ham pikseller gibi yüksek boyutlu girdileri ele almasına olanak tanımaktadır; tıpkı birçok Atari oyununu oynamayı öğrenen derin Q-ağında (deep Q-network) olduğu gibi.
Klinik önem
Değer tabanlı yöntemler, en yaygın kullanılan pekiştirmeli öğrenme algoritmaları arasında yer almaktadır ve derin ağlarla birleştirilen Q-öğrenme, yüksek boyutlu duyusal girdiden doğrudan insan seviyesinde performans gösteren ilk ajanları üretmiştir; bu da değer tahmininin karmaşık görevlere nasıl ölçeklenebildiğini ortaya koymaktadır.
Tarihçe
Sutton, 1988'de zamansal fark öğrenmesini tanıtmış, Watkins'in 1989'daki Q-öğrenmesi ise yakınsak bir politika dışı kontrol yöntemi sunmuştur. Q-öğrenmenin 2015'teki derin Q-ağı (deep Q-network) ile derin ağlarla birleştirilmesi, değer tabanlı pekiştirmeli öğrenmeyi yüksek boyutlu problemlere taşımış ve modern derin pekiştirmeli öğrenme çağını başlatmıştır.
Öne çıkan isimler
- Richard Sutton
- Christopher Watkins
- Volodymyr Mnih
İlgili konular
Temel eserler
- sutton2018
- mnih2015
- watkins1992
Sıkça sorulan sorular
- Zamansal fark öğrenmesi neyden önyükleme (bootstrap) yapmaktadır?
- Mevcut durumun değerini, gözlemlenen ödül ve bir sonraki durumun kendi tahmini değerini kullanarak güncellemektedir. Nihai sonucu beklemek yerine kısmen başka bir tahmine dayandığı için çevrimiçi ve eksik bölümlerden öğrenebilmektedir.
- Q-öğrenme neden politika dışı (off-policy) olarak adlandırılmaktadır?
- Q-öğrenme, ajan deneyim toplamak için farklı, keşfedici bir politika izlerken bile optimal politikanın değerini öğrenmektedir. Veri toplamak için kullanılan davranış ile değerlendirilen politika farklılık gösterebilmektedir; politika dışı (off-policy) terimi de bunu ifade etmektedir.