मार्कोव निर्णय प्रक्रियाएँ
मार्कोव निर्णय प्रक्रियाएँ अनुक्रमिक निर्णय-निर्माण को औपचारिक रूप देती हैं, जो एक ऐसे एजेंट का प्रतिरूपण करती हैं जो दीर्घकालिक प्रतिफल को अधिकतम करने के लिए अवस्थाओं में क्रियाओं का चयन करता है।
Definition
एक मार्कोव निर्णय प्रक्रिया अनुक्रमिक निर्णय-निर्माण का एक मॉडल है जिसे अवस्थाओं के एक सेट, उपलब्ध क्रियाओं, क्रियाओं को देखते हुए अवस्थाओं के बीच संक्रमण की प्रायिकताओं और प्रतिफलों द्वारा परिभाषित किया जाता है, जिसमें लक्ष्य एक ऐसी नीति खोजना है जो अपेक्षित संचयी छूट वाले प्रतिफल को अधिकतम करती है।
Scope
यह विषय सुदृढीकरण अधिगम (reinforcement learning) के अंतर्निहित गणितीय ढाँचे को शामिल करता है: अवस्थाएँ, क्रियाएँ, संक्रमण प्रायिकताएँ, प्रतिफल और छूट कारक (discount factor); नीतियाँ और मान फलन (value functions); बेलमैन इष्टतमता समीकरण (Bellman optimality equations); और मान पुनरावृति (value iteration) तथा नीति पुनरावृति (policy iteration) की गतिशील-प्रोग्रामिंग विधियाँ जो एक ज्ञात प्रक्रिया को हल करती हैं। यह मार्कोव गुणधर्म को मानता है कि भविष्य केवल वर्तमान अवस्था पर निर्भर करता है।
Core questions
- मार्कोव निर्णय प्रक्रिया को कौन से घटक परिभाषित करते हैं?
- बेलमैन समीकरण एक अवस्था के मान को उसके उत्तराधिकारियों से कैसे संबंधित करते हैं?
- मान पुनरावृति और नीति पुनरावृति इष्टतम नीतियों को कैसे खोजते हैं?
- मार्कोव गुणधर्म पर्यावरण के बारे में क्या मानता है?
Key theories
- बेलमैन इष्टतमता समीकरण
- एक अवस्था से इष्टतम रूप से कार्य करने का मान सर्वोत्तम तात्कालिक प्रतिफल और परिणामी अवस्था के छूट वाले मान के बराबर होता है, एक पुनरावर्ती संबंध जिसका समाधान इष्टतम नीति को परिभाषित करता है।
- गतिशील प्रोग्रामिंग
- जब प्रक्रिया पूरी तरह से ज्ञात होती है, तो मान पुनरावृति और नीति पुनरावृति बेलमैन अद्यतन को बार-बार लागू करके इष्टतम मान फलन और नीतियों की गणना करते हैं, जो इष्टतमता के अभिसरण की गारंटी देता है।
- छूट और प्रतिफल
- भविष्य के प्रतिफलों को एक छूट कारक द्वारा भारित किया जाता है ताकि कुल प्रतिफल अच्छी तरह से परिभाषित हो और निकट के प्रतिफल अधिक मायने रखते हैं, यह आकार देते हुए कि एजेंट प्रभावी ढंग से कितनी दूर की योजना बनाता है।
Clinical relevance
मार्कोव निर्णय प्रक्रियाएँ सुदृढीकरण अधिगम और अधिकांश संचालन अनुसंधान तथा नियंत्रण की वैचारिक रीढ़ हैं, जो अवस्थाओं, क्रियाओं और मान की भाषा प्रदान करती हैं जिसे लगभग सभी अधिगम एल्गोरिदम अनुमानित करते हैं जब मॉडल अज्ञात होता है या सटीक रूप से हल करने के लिए बहुत बड़ा होता है।
History
यह ढाँचा 1950 के दशक में बेलमैन के गतिशील प्रोग्रामिंग और हॉवर्ड के नीति-पुनरावृति कार्य से उभरा, जिसने ज्ञात निर्णय प्रक्रियाओं के लिए सटीक समाधान विधियाँ प्रदान कीं। सुदृढीकरण अधिगम ने बाद में मार्कोव निर्णय प्रक्रिया को उस स्थिति के लिए अपने मानक औपचारिकता के रूप में अपनाया जहाँ संक्रमण और प्रतिफल को अनुभव से सीखना होता है।
Key figures
- Richard Bellman
- Ronald Howard
- Richard Sutton
Related topics
Seminal works
- sutton2018
- bellman1957
- puterman1994
Frequently asked questions
- मार्कोव गुणधर्म क्या है?
- मार्कोव गुणधर्म कहता है कि प्रक्रिया का भविष्य का विकास केवल वर्तमान अवस्था और क्रिया पर निर्भर करता है, न कि एजेंट वहाँ कैसे पहुँचा, इसके पूरे इतिहास पर। यह वर्तमान अवस्था को निर्णय लेने के लिए एक पर्याप्त सारांश बनाता है।
- छूट कारक का उपयोग क्यों किया जाता है?
- छूट दूर के प्रतिफलों की तुलना में निकट के प्रतिफलों को अधिक महत्व देती है। यह लंबी या अनंत क्षितिजों पर कुल प्रतिफल को सीमित रखती है और शीघ्र प्रतिफल के लिए एक प्राथमिकता को एन्कोड करती है, जबकि यह भी नियंत्रित करती है कि एजेंट प्रभावी ढंग से भविष्य में कितनी दूर की योजना बनाता है।