मार्कोव गुणधर्म क्या है?

मार्कोव गुणधर्म कहता है कि प्रक्रिया का भविष्य का विकास केवल वर्तमान अवस्था और क्रिया पर निर्भर करता है, न कि एजेंट वहाँ कैसे पहुँचा, इसके पूरे इतिहास पर। यह वर्तमान अवस्था को निर्णय लेने के लिए एक पर्याप्त सारांश बनाता है।

छूट कारक का उपयोग क्यों किया जाता है?

छूट दूर के प्रतिफलों की तुलना में निकट के प्रतिफलों को अधिक महत्व देती है। यह लंबी या अनंत क्षितिजों पर कुल प्रतिफल को सीमित रखती है और शीघ्र प्रतिफल के लिए एक प्राथमिकता को एन्कोड करती है, जबकि यह भी नियंत्रित करती है कि एजेंट प्रभावी ढंग से भविष्य में कितनी दूर की योजना बनाता है।

मार्कोव निर्णय प्रक्रियाएँ

मार्कोव निर्णय प्रक्रियाएँ अनुक्रमिक निर्णय-निर्माण को औपचारिक रूप देती हैं, जो एक ऐसे एजेंट का प्रतिरूपण करती हैं जो दीर्घकालिक प्रतिफल को अधिकतम करने के लिए अवस्थाओं में क्रियाओं का चयन करता है।

PaperMind से विषय खोजेंजल्द हीFind papers & topics

Tools & resources

स्लाइड डाउनलोड करें

Learn & explore

वीडियोजल्द ही

Definition

एक मार्कोव निर्णय प्रक्रिया अनुक्रमिक निर्णय-निर्माण का एक मॉडल है जिसे अवस्थाओं के एक सेट, उपलब्ध क्रियाओं, क्रियाओं को देखते हुए अवस्थाओं के बीच संक्रमण की प्रायिकताओं और प्रतिफलों द्वारा परिभाषित किया जाता है, जिसमें लक्ष्य एक ऐसी नीति खोजना है जो अपेक्षित संचयी छूट वाले प्रतिफल को अधिकतम करती है।

Scope

यह विषय सुदृढीकरण अधिगम (reinforcement learning) के अंतर्निहित गणितीय ढाँचे को शामिल करता है: अवस्थाएँ, क्रियाएँ, संक्रमण प्रायिकताएँ, प्रतिफल और छूट कारक (discount factor); नीतियाँ और मान फलन (value functions); बेलमैन इष्टतमता समीकरण (Bellman optimality equations); और मान पुनरावृति (value iteration) तथा नीति पुनरावृति (policy iteration) की गतिशील-प्रोग्रामिंग विधियाँ जो एक ज्ञात प्रक्रिया को हल करती हैं। यह मार्कोव गुणधर्म को मानता है कि भविष्य केवल वर्तमान अवस्था पर निर्भर करता है।

Core questions

मार्कोव निर्णय प्रक्रिया को कौन से घटक परिभाषित करते हैं?
बेलमैन समीकरण एक अवस्था के मान को उसके उत्तराधिकारियों से कैसे संबंधित करते हैं?
मान पुनरावृति और नीति पुनरावृति इष्टतम नीतियों को कैसे खोजते हैं?
मार्कोव गुणधर्म पर्यावरण के बारे में क्या मानता है?

Key theories

बेलमैन इष्टतमता समीकरण: एक अवस्था से इष्टतम रूप से कार्य करने का मान सर्वोत्तम तात्कालिक प्रतिफल और परिणामी अवस्था के छूट वाले मान के बराबर होता है, एक पुनरावर्ती संबंध जिसका समाधान इष्टतम नीति को परिभाषित करता है।
गतिशील प्रोग्रामिंग: जब प्रक्रिया पूरी तरह से ज्ञात होती है, तो मान पुनरावृति और नीति पुनरावृति बेलमैन अद्यतन को बार-बार लागू करके इष्टतम मान फलन और नीतियों की गणना करते हैं, जो इष्टतमता के अभिसरण की गारंटी देता है।
छूट और प्रतिफल: भविष्य के प्रतिफलों को एक छूट कारक द्वारा भारित किया जाता है ताकि कुल प्रतिफल अच्छी तरह से परिभाषित हो और निकट के प्रतिफल अधिक मायने रखते हैं, यह आकार देते हुए कि एजेंट प्रभावी ढंग से कितनी दूर की योजना बनाता है।

Clinical relevance

मार्कोव निर्णय प्रक्रियाएँ सुदृढीकरण अधिगम और अधिकांश संचालन अनुसंधान तथा नियंत्रण की वैचारिक रीढ़ हैं, जो अवस्थाओं, क्रियाओं और मान की भाषा प्रदान करती हैं जिसे लगभग सभी अधिगम एल्गोरिदम अनुमानित करते हैं जब मॉडल अज्ञात होता है या सटीक रूप से हल करने के लिए बहुत बड़ा होता है।

History

यह ढाँचा 1950 के दशक में बेलमैन के गतिशील प्रोग्रामिंग और हॉवर्ड के नीति-पुनरावृति कार्य से उभरा, जिसने ज्ञात निर्णय प्रक्रियाओं के लिए सटीक समाधान विधियाँ प्रदान कीं। सुदृढीकरण अधिगम ने बाद में मार्कोव निर्णय प्रक्रिया को उस स्थिति के लिए अपने मानक औपचारिकता के रूप में अपनाया जहाँ संक्रमण और प्रतिफल को अनुभव से सीखना होता है।

Key figures

Richard Bellman
Ronald Howard
Richard Sutton

Seminal works

sutton2018
bellman1957
puterman1994

Frequently asked questions

मार्कोव गुणधर्म क्या है?: मार्कोव गुणधर्म कहता है कि प्रक्रिया का भविष्य का विकास केवल वर्तमान अवस्था और क्रिया पर निर्भर करता है, न कि एजेंट वहाँ कैसे पहुँचा, इसके पूरे इतिहास पर। यह वर्तमान अवस्था को निर्णय लेने के लिए एक पर्याप्त सारांश बनाता है।
छूट कारक का उपयोग क्यों किया जाता है?: छूट दूर के प्रतिफलों की तुलना में निकट के प्रतिफलों को अधिक महत्व देती है। यह लंबी या अनंत क्षितिजों पर कुल प्रतिफल को सीमित रखती है और शीघ्र प्रतिफल के लिए एक प्राथमिकता को एन्कोड करती है, जबकि यह भी नियंत्रित करती है कि एजेंट प्रभावी ढंग से भविष्य में कितनी दूर की योजना बनाता है।