Machine learningReinforcement learning

تعلم Q (Q-Learning)

تعلم Q (Q-learning)، الذي قدمه كريستوفر واتكينز وبيتر داين في عام 1992، هو خوارزمية تعلم معزز خالية من النماذج تتعلم قيمة اتخاذ كل إجراء في كل حالة - دالة Q - بشكل بحت من التجربة، دون نموذج للبيئة. إنها خارج السياسة (off-policy): تتعلم قيم الإجراءات المثلى أثناء اتباع سياسة سلوك استكشافي، وتحت الظروف القياسية تثبت نظريًا تقاربها إلى السياسة المثلى.

افتح في MethodMindقريبًافيديوقريبًاDownload slides

اقرأ الطريقة كاملة

للأعضاء فقط

سجّل الدخول بحساب مجاني لقراءة هذا القسم.

تسجيل الدخول

Method map

The neighbourhood of related methods — select a node to explore.

المصادر

  1. Watkins, C. J. C. H., & Dayan, P. (1992). Q-learning. Machine Learning, 8(3–4), 279–292. DOI: 10.1007/BF00992698
  2. Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6

كيف تستشهد بهذه الصفحة

ScholarGate. (2026, June 2). Q-Learning (Off-Policy Temporal-Difference Control). ScholarGate. https://scholargate.app/ar/machine-learning/q-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

يُستشهد بها في

ScholarGateQ-Learning (Q-Learning (Off-Policy Temporal-Difference Control)). استُرجع بتاريخ 2026-06-15 من https://scholargate.app/ar/machine-learning/q-learning · مجموعة البيانات: https://doi.org/10.5281/zenodo.20539026