Machine learningReinforcement learning
تعلم Q (Q-Learning)
تعلم Q (Q-learning)، الذي قدمه كريستوفر واتكينز وبيتر داين في عام 1992، هو خوارزمية تعلم معزز خالية من النماذج تتعلم قيمة اتخاذ كل إجراء في كل حالة - دالة Q - بشكل بحت من التجربة، دون نموذج للبيئة. إنها خارج السياسة (off-policy): تتعلم قيم الإجراءات المثلى أثناء اتباع سياسة سلوك استكشافي، وتحت الظروف القياسية تثبت نظريًا تقاربها إلى السياسة المثلى.
اقرأ الطريقة كاملة
للأعضاء فقط
تسجيل الدخولسجّل الدخول بحساب مجاني لقراءة هذا القسم.
Method map
The neighbourhood of related methods — select a node to explore.
المصادر
- Watkins, C. J. C. H., & Dayan, P. (1992). Q-learning. Machine Learning, 8(3–4), 279–292. DOI: 10.1007/BF00992698 ↗
- Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6
كيف تستشهد بهذه الصفحة
ScholarGate. (2026, June 2). Q-Learning (Off-Policy Temporal-Difference Control). ScholarGate. https://scholargate.app/ar/machine-learning/q-learning
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- التعلم المعزز العميقالتعلم العميق↔ compare
- البرمجة الديناميكيةالتحسين↔ compare
- أساليب تدرج السياسةتعلم الآلة↔ compare