Machine learningDeep learning / NLP / CV

التعلم المعزز ضعيف الإشراف

يدرب التعلم المعزز ضعيف الإشراف (WSRL) الوكلاء في بيئات تكون فيها إشارة المكافأة غير مثالية، أو متفرقة، أو متأخرة، أو غير كافية فقط — على عكس التعلم المعزز الكثيف كامل الإشراف. يجب على الوكيل تعلم سياسات فعالة على الرغم من التغذية الراجعة غير المكتملة، باستخدام إشارات مساعدة، أو نمذجة المكافأة، أو تعلم التفضيلات للتعويض عن الإشراف الضعيف.

افتح في MethodMindقريبًافيديوقريبًاDownload slides

اقرأ الطريقة كاملة

للأعضاء فقط

سجّل الدخول بحساب مجاني لقراءة هذا القسم.

تسجيل الدخول

Method map

The neighbourhood of related methods — select a node to explore.

المصادر

  1. Sutton, R. S. & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6
  2. Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S. & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems (NeurIPS), 30. link

كيف تستشهد بهذه الصفحة

ScholarGate. (2026, June 3). Weakly Supervised Reinforcement Learning. ScholarGate. https://scholargate.app/ar/deep-learning/weakly-supervised-reinforcement-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

يُستشهد بها في

ScholarGateWeakly supervised reinforcement learning (Weakly Supervised Reinforcement Learning). استُرجع بتاريخ 2026-06-15 من https://scholargate.app/ar/deep-learning/weakly-supervised-reinforcement-learning · مجموعة البيانات: https://doi.org/10.5281/zenodo.20539026