ScholarGate
सहायक

अनुक्रमिक निर्णय लेना (MDPs)

अनुक्रमिक निर्णय लेना यह औपचारिक रूप देता है कि एक एजेंट को स्टोकेस्टिक वातावरण में समय के साथ कैसे कार्य करना चाहिए, जिसमें मार्कोव निर्णय प्रक्रियाओं का उपयोग किया जाता है, जिसमें क्रियाएं पुरस्कार देती हैं और संभाव्य रूप से स्थिति को बदलती हैं, ताकि दीर्घकालिक अपेक्षित पुरस्कार को अधिकतम करने वाली नीति की गणना की जा सके।

PaperMind से विषय खोजेंजल्द हीFind papers & topics
Tools & resources
स्लाइड डाउनलोड करें
Learn & explore
वीडियोजल्द ही

Definition

एक मार्कोव निर्णय प्रक्रिया को राज्यों, क्रियाओं, एक संक्रमण संभाव्यता फ़ंक्शन और एक पुरस्कार फ़ंक्शन द्वारा परिभाषित किया जाता है; अनुक्रमिक निर्णय लेना एक ऐसी नीति चाहता है जो राज्यों को उन क्रियाओं से मैप करती है जो मॉडल को देखते हुए अपेक्षित संचयी (आमतौर पर छूट वाले) पुरस्कार को अधिकतम करती हैं।

Scope

यह विषय समय के साथ निर्णय-सैद्धांतिक योजना को शामिल करता है: राज्यों, क्रियाओं, संक्रमण संभावनाओं, पुरस्कारों और छूट का मार्कोव निर्णय प्रक्रिया (MDP) मॉडल; नीतियां और मूल्य कार्य; इष्टतम व्यवहार को दर्शाने वाले बेलमैन समीकरण; और ज्ञात मॉडल को हल करने के लिए मूल्य पुनरावृति और नीति पुनरावृति के गतिशील-प्रोग्रामिंग एल्गोरिदम। यह आंशिक रूप से अवलोकन योग्य MDPs (POMDPs) और विश्वास-स्थिति योजना का भी परिचय देता है। ध्यान तब योजना बनाने पर है जब मॉडल दिया गया हो; ज्ञात मॉडल के बिना अनुभव से एक नीति सीखना सुदृढीकरण अधिगम है, जो मशीन-लर्निंग उपक्षेत्र से संबंधित है।

Core questions

  • स्टोकेस्टिक संक्रमणों के तहत समय के साथ कार्य करने को राज्यों, क्रियाओं, संक्रमणों और पुरस्कारों के रूप में कैसे मॉडल किया जाता है?
  • बेलमैन इष्टतमता समीकरण एक इष्टतम नीति के मूल्य के बारे में क्या कहता है?
  • जब मॉडल ज्ञात हो तो मूल्य पुनरावृति और नीति पुनरावृति एक इष्टतम नीति की गणना कैसे करते हैं?
  • आंशिक अवलोकनशीलता POMDPs और विश्वास राज्यों पर योजना बनाने की ओर कैसे ले जाती है?

Key concepts

  • राज्य, क्रियाएं, संक्रमण, पुरस्कार
  • नीति
  • मूल्य कार्य
  • छूट कारक
  • बेलमैन समीकरण
  • मूल्य पुनरावृति
  • नीति पुनरावृति
  • POMDP और विश्वास स्थिति

Key theories

बेलमैन इष्टतमता समीकरण
एक राज्य का इष्टतम मूल्य सर्वोत्तम तात्कालिक पुरस्कार और अगले राज्य के छूट वाले अपेक्षित इष्टतम मूल्य के बराबर होता है; यह पुनरावर्ती संबंध इष्टतम अनुक्रमिक व्यवहार को दर्शाता है और गतिशील-प्रोग्रामिंग समाधानों की नींव है।
मूल्य और नीति पुनरावृति
एक ज्ञात MDP के लिए, मूल्य पुनरावृति अभिसरण तक बेलमैन अपडेट को बार-बार लागू करती है, और नीति पुनरावृति नीति मूल्यांकन और सुधार को वैकल्पिक करती है; दोनों एक इष्टतम नीति खोजने की गारंटी देते हैं।
आंशिक रूप से अवलोकन योग्य MDPs
जब राज्य सीधे अवलोकन योग्य नहीं होता है, तो योजना एक विश्वास स्थिति (राज्यों पर एक वितरण) पर की जाती है जिसे अवलोकनों से अपडेट किया जाता है; ऐसे POMDPs को हल करना पूरी तरह से अवलोकन योग्य मामले की तुलना में कहीं अधिक कठिन है लेकिन यथार्थवादी संवेदन सीमाओं को पकड़ता है।

Clinical relevance

MDP- और POMDP-आधारित निर्णय लेना रोबोट नेविगेशन और नियंत्रण, स्वचालित संवाद प्रबंधन, रखरखाव और सूची निर्णयों और संसाधन आवंटन का आधार है, और निर्णय-सैद्धांतिक योजना नींव प्रदान करता है जिस पर सुदृढीकरण अधिगम तब निर्मित होता है जब पर्यावरण मॉडल को इसके बजाय सीखा जाना चाहिए।

History

अनुक्रमिक निर्णय लेना बेलमैन के गतिशील प्रोग्रामिंग (1957) और हॉवर्ड के नीति पुनरावृति (1960) से विकसित हुआ। पुटरमैन के 1994 के मोनोग्राफ ने मार्कोव निर्णय प्रक्रियाओं के सिद्धांत को समेकित किया, और केलबलिंग, लिटमैन और कैसेंड्रा (1998) ने अनिश्चित धारणा के तहत कार्य करने के लिए एक मॉडल के रूप में आंशिक रूप से अवलोकन योग्य MDPs को मुख्यधारा AI में लाया।

Key figures

  • Richard Bellman
  • Ronald A. Howard
  • Martin L. Puterman
  • Leslie P. Kaelbling
  • Michael L. Littman

Related topics

Seminal works

  • bellman1957
  • puterman1994
  • kaelbling1998

Frequently asked questions

यह सुदृढीकरण अधिगम से कैसे भिन्न है?
MDPs के साथ अनुक्रमिक निर्णय लेना मानता है कि संक्रमण और पुरस्कार मॉडल ज्ञात है, इसलिए एक इष्टतम नीति को सीधे गतिशील प्रोग्रामिंग द्वारा गणना की जा सकती है। सुदृढीकरण अधिगम उस मामले को संबोधित करता है जहां मॉडल अज्ञात है और एजेंट को अनुभव से एक अच्छी नीति सीखनी चाहिए; यह MDP को अपने अंतर्निहित औपचारिकता के रूप में उपयोग करता है।
POMDP में विश्वास स्थिति क्या है?
एक आंशिक रूप से अवलोकन योग्य MDP में एजेंट वास्तविक स्थिति को नहीं देख सकता है, इसलिए यह एक विश्वास स्थिति, संभावित राज्यों पर एक संभाव्यता वितरण बनाए रखता है, जिसे क्रियाएं करने और अवलोकन प्राप्त करने पर अपडेट किया जाता है। योजना तब सीधे छिपी हुई स्थितियों के बजाय इन विश्वास स्थितियों पर होती है।

Methods for this concept

Related concepts