ScholarGate
सहायक
Machine learningDeep learning / NLP / CV

Weakly Supervised Reinforcement Learning

मानक RL मानता है कि एक एजेंट प्रत्येक क्रिया के बाद एक स्पष्ट पुरस्कार प्राप्त करता है। वास्तविकता में, पुरस्कार अक्सर दुर्लभ, शोर युक्त, या केवल मोटे मानव रेटिंग के रूप में उपलब्ध होते हैं, न कि सटीक संख्यात्मक मानों के रूप में। कमजोर पर्यवेक्षित RL पुरस्कार संकेत को ही अनिश्चित या आंशिक मानकर, सीमित प्रतिक्रिया से एक पुरस्कार मॉडल सीखकर, या प्रदर्शन, वरीयताओं, या सहायक कार्यों जैसे अतिरिक्त कमजोर संकेतों का लाभ उठाकर इसे संबोधित करता है। एजेंट प्रभावी ढंग से सीखता है कि अच्छा व्यवहार कैसा दिखता है, भले ही वातावरण इसे केवल फुसफुसाता हो।

MethodMind में खोलेंजल्द हीवीडियोजल्द हीDownload slides

पूरी विधि पढ़ें

केवल सदस्यों के लिए

यह खंड पढ़ने के लिए निःशुल्क खाते से साइन इन करें।

साइन इन करें

Method map

The neighbourhood of related methods — select a node to explore.

स्रोत

  1. Sutton, R. S. & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6
  2. Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S. & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems (NeurIPS), 30. link

इस पृष्ठ का उद्धरण कैसे दें

ScholarGate. (2026, June 3). Weakly Supervised Reinforcement Learning. ScholarGate. https://scholargate.app/hi/deep-learning/weakly-supervised-reinforcement-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

इनमें संदर्भित

ScholarGateWeakly supervised reinforcement learning (Weakly Supervised Reinforcement Learning). 2026-06-15 को यहाँ से प्राप्त https://scholargate.app/hi/deep-learning/weakly-supervised-reinforcement-learning · डेटासेट: https://doi.org/10.5281/zenodo.20539026