ScholarGate
सहायक

मार्कोव निर्णय प्रक्रियाएँ

मार्कोव निर्णय प्रक्रियाएँ अनुक्रमिक निर्णय-निर्माण को औपचारिक रूप देती हैं, जो एक ऐसे एजेंट का प्रतिरूपण करती हैं जो दीर्घकालिक प्रतिफल को अधिकतम करने के लिए अवस्थाओं में क्रियाओं का चयन करता है।

PaperMind से विषय खोजेंजल्द हीFind papers & topics
Tools & resources
स्लाइड डाउनलोड करें
Learn & explore
वीडियोजल्द ही

Definition

एक मार्कोव निर्णय प्रक्रिया अनुक्रमिक निर्णय-निर्माण का एक मॉडल है जिसे अवस्थाओं के एक सेट, उपलब्ध क्रियाओं, क्रियाओं को देखते हुए अवस्थाओं के बीच संक्रमण की प्रायिकताओं और प्रतिफलों द्वारा परिभाषित किया जाता है, जिसमें लक्ष्य एक ऐसी नीति खोजना है जो अपेक्षित संचयी छूट वाले प्रतिफल को अधिकतम करती है।

Scope

यह विषय सुदृढीकरण अधिगम (reinforcement learning) के अंतर्निहित गणितीय ढाँचे को शामिल करता है: अवस्थाएँ, क्रियाएँ, संक्रमण प्रायिकताएँ, प्रतिफल और छूट कारक (discount factor); नीतियाँ और मान फलन (value functions); बेलमैन इष्टतमता समीकरण (Bellman optimality equations); और मान पुनरावृति (value iteration) तथा नीति पुनरावृति (policy iteration) की गतिशील-प्रोग्रामिंग विधियाँ जो एक ज्ञात प्रक्रिया को हल करती हैं। यह मार्कोव गुणधर्म को मानता है कि भविष्य केवल वर्तमान अवस्था पर निर्भर करता है।

Core questions

  • मार्कोव निर्णय प्रक्रिया को कौन से घटक परिभाषित करते हैं?
  • बेलमैन समीकरण एक अवस्था के मान को उसके उत्तराधिकारियों से कैसे संबंधित करते हैं?
  • मान पुनरावृति और नीति पुनरावृति इष्टतम नीतियों को कैसे खोजते हैं?
  • मार्कोव गुणधर्म पर्यावरण के बारे में क्या मानता है?

Key theories

बेलमैन इष्टतमता समीकरण
एक अवस्था से इष्टतम रूप से कार्य करने का मान सर्वोत्तम तात्कालिक प्रतिफल और परिणामी अवस्था के छूट वाले मान के बराबर होता है, एक पुनरावर्ती संबंध जिसका समाधान इष्टतम नीति को परिभाषित करता है।
गतिशील प्रोग्रामिंग
जब प्रक्रिया पूरी तरह से ज्ञात होती है, तो मान पुनरावृति और नीति पुनरावृति बेलमैन अद्यतन को बार-बार लागू करके इष्टतम मान फलन और नीतियों की गणना करते हैं, जो इष्टतमता के अभिसरण की गारंटी देता है।
छूट और प्रतिफल
भविष्य के प्रतिफलों को एक छूट कारक द्वारा भारित किया जाता है ताकि कुल प्रतिफल अच्छी तरह से परिभाषित हो और निकट के प्रतिफल अधिक मायने रखते हैं, यह आकार देते हुए कि एजेंट प्रभावी ढंग से कितनी दूर की योजना बनाता है।

Clinical relevance

मार्कोव निर्णय प्रक्रियाएँ सुदृढीकरण अधिगम और अधिकांश संचालन अनुसंधान तथा नियंत्रण की वैचारिक रीढ़ हैं, जो अवस्थाओं, क्रियाओं और मान की भाषा प्रदान करती हैं जिसे लगभग सभी अधिगम एल्गोरिदम अनुमानित करते हैं जब मॉडल अज्ञात होता है या सटीक रूप से हल करने के लिए बहुत बड़ा होता है।

History

यह ढाँचा 1950 के दशक में बेलमैन के गतिशील प्रोग्रामिंग और हॉवर्ड के नीति-पुनरावृति कार्य से उभरा, जिसने ज्ञात निर्णय प्रक्रियाओं के लिए सटीक समाधान विधियाँ प्रदान कीं। सुदृढीकरण अधिगम ने बाद में मार्कोव निर्णय प्रक्रिया को उस स्थिति के लिए अपने मानक औपचारिकता के रूप में अपनाया जहाँ संक्रमण और प्रतिफल को अनुभव से सीखना होता है।

Key figures

  • Richard Bellman
  • Ronald Howard
  • Richard Sutton

Related topics

Seminal works

  • sutton2018
  • bellman1957
  • puterman1994

Frequently asked questions

मार्कोव गुणधर्म क्या है?
मार्कोव गुणधर्म कहता है कि प्रक्रिया का भविष्य का विकास केवल वर्तमान अवस्था और क्रिया पर निर्भर करता है, न कि एजेंट वहाँ कैसे पहुँचा, इसके पूरे इतिहास पर। यह वर्तमान अवस्था को निर्णय लेने के लिए एक पर्याप्त सारांश बनाता है।
छूट कारक का उपयोग क्यों किया जाता है?
छूट दूर के प्रतिफलों की तुलना में निकट के प्रतिफलों को अधिक महत्व देती है। यह लंबी या अनंत क्षितिजों पर कुल प्रतिफल को सीमित रखती है और शीघ्र प्रतिफल के लिए एक प्राथमिकता को एन्कोड करती है, जबकि यह भी नियंत्रित करती है कि एजेंट प्रभावी ढंग से भविष्य में कितनी दूर की योजना बनाता है।

Methods for this concept

Related concepts