Machine learningDeep learning / NLP / CV

Weakly Supervised Reinforcement Learning

मानक RL मानता है कि एक एजेंट प्रत्येक क्रिया के बाद एक स्पष्ट पुरस्कार प्राप्त करता है। वास्तविकता में, पुरस्कार अक्सर दुर्लभ, शोर युक्त, या केवल मोटे मानव रेटिंग के रूप में उपलब्ध होते हैं, न कि सटीक संख्यात्मक मानों के रूप में। कमजोर पर्यवेक्षित RL पुरस्कार संकेत को ही अनिश्चित या आंशिक मानकर, सीमित प्रतिक्रिया से एक पुरस्कार मॉडल सीखकर, या प्रदर्शन, वरीयताओं, या सहायक कार्यों जैसे अतिरिक्त कमजोर संकेतों का लाभ उठाकर इसे संबोधित करता है। एजेंट प्रभावी ढंग से सीखता है कि अच्छा व्यवहार कैसा दिखता है, भले ही वातावरण इसे केवल फुसफुसाता हो।

MethodMind में खोलेंजल्द हीवीडियोजल्द हीDownload slides

पूरी विधि पढ़ें

केवल सदस्यों के लिए

यह खंड पढ़ने के लिए निःशुल्क खाते से साइन इन करें।

साइन इन करें

Method map

The neighbourhood of related methods — select a node to explore.

Weakly supervised reinforcement learning

पुनर्बलन अधिगम Self-supervised Reinforc…अर्ध-पर्यवेक्षित सुदृढीक…

स्रोत

Sutton, R. S. & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6
Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S. & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems (NeurIPS), 30. link ↗

इस पृष्ठ का उद्धरण कैसे दें

ScholarGate. (2026, June 3). Weakly Supervised Reinforcement Learning. ScholarGate. https://scholargate.app/hi/deep-learning/weakly-supervised-reinforcement-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

पुनर्बलन अधिगमगहन अधिगम↔ compare
Self-supervised Reinforcement Learningगहन अधिगम↔ compare
अर्ध-पर्यवेक्षित सुदृढीकरण अधिगम (Semi-supervised Reinforcement Learning)गहन अधिगम↔ compare

Compare side by side →

इनमें संदर्भित

अर्ध-पर्यवेक्षित सुदृढीकरण अधिगम (Semi-supervised Reinforcement Learning)

इस पृष्ठ पर कोई त्रुटि दिखी? सूचित करें या सुधार सुझाएँ →