Markov Karar Süreçleri
Markov karar süreçleri, uzun vadeli ödülü maksimize etmek amacıyla durumlarda eylemler seçen bir ajanı modelleyerek sıralı karar verme süreçlerini biçimlendirir.
Tanım
Markov karar süreci, bir dizi durum, mevcut eylemler, eylemler verildiğinde durumlar arasında geçiş olasılıkları ve ödüllerle tanımlanan sıralı karar verme modelidir; bu modelde amaç, beklenen kümülatif indirimli ödülü maksimize eden bir politika bulmaktır.
Kapsam
Bu konu, pekiştirmeli öğrenmenin altında yatan matematiksel çerçeveyi kapsamaktadır: durumlar, eylemler, geçiş olasılıkları, ödüller ve indirim faktörü; politikalar ve değer fonksiyonları; Bellman optimallik denklemleri; ve bilinen bir süreci çözen değer iterasyonu ve politika iterasyonu gibi dinamik programlama yöntemleri. Geleceğin yalnızca mevcut duruma bağlı olduğu Markov özelliğini varsaymaktadır.
Temel sorular
- Bir Markov karar sürecini hangi bileşenler tanımlar?
- Bellman denklemleri, bir durumun değerini halefleriyle nasıl ilişkilendirir?
- Değer iterasyonu ve politika iterasyonu optimal politikaları nasıl bulur?
- Markov özelliği, çevre hakkında ne varsayar?
Temel kuramlar
- Bellman optimallik denklemleri
- Bir durumdan optimal şekilde hareket etmenin değeri, en iyi anlık ödül artı ortaya çıkan durumun indirimli değerine eşittir; bu, çözümü optimal politikayı tanımlayan özyinelemeli bir ilişkidir.
- Dinamik programlama
- Süreç tamamen bilindiğinde, değer iterasyonu ve politika iterasyonu, Bellman güncellemesini tekrar tekrar uygulayarak optimal değer fonksiyonlarını ve politikalarını hesaplar ve optimuma yakınsamayı garanti eder.
- İndirgeme ve getiri
- Gelecekteki ödüller bir indirim faktörü ile ağırlıklandırılır, böylece toplam getiri iyi tanımlanır ve daha yakın ödüller daha fazla sayılır; bu durum, ajanın ne kadar ileriye dönük etkili bir şekilde plan yaptığını şekillendirir.
Klinik önem
Markov karar süreçleri, pekiştirmeli öğrenmenin ve operasyonel araştırma ile kontrolün büyük bir kısmının kavramsal omurgasını oluşturmaktadır; modelin bilinmediği veya tam olarak çözülemeyecek kadar büyük olduğu durumlarda neredeyse tüm öğrenme algoritmalarının yaklaştığı durumlar, eylemler ve değer dilini sağlamaktadır.
Tarihçe
Bu çerçeve, 1950'lerde Bellman'ın dinamik programlaması ve Howard'ın politika iterasyonu çalışmalarından doğmuş olup, bilinen karar süreçleri için kesin çözüm yöntemleri sunmuştur. Pekiştirmeli öğrenme, geçişlerin ve ödüllerin deneyimden öğrenilmesi gereken durumlar için Markov karar sürecini standart bir biçimcilik olarak benimsemiştir.
Öne çıkan isimler
- Richard Bellman
- Ronald Howard
- Richard Sutton
İlgili konular
Temel eserler
- sutton2018
- bellman1957
- puterman1994
Sıkça sorulan sorular
- Markov özelliği nedir?
- Markov özelliği, sürecin gelecekteki evriminin yalnızca mevcut duruma ve eyleme bağlı olduğunu, ajanın oraya nasıl ulaştığının tam geçmişine bağlı olmadığını belirtir. Bu durum, mevcut durumu karar verme için yeterli bir özet haline getirir.
- Neden bir indirim faktörü kullanılır?
- İndirgeme, daha yakın ödülleri uzak olanlardan daha ağır bir şekilde ağırlıklandırır. Uzun veya sonsuz ufuklarda toplam getiriyi sonlu tutar ve daha erken ödül tercihini kodlar; aynı zamanda ajanın geleceğe ne kadar etkili bir şekilde plan yaptığını da kontrol eder.