Machine learningReinforcement learning

تعلم Q (Q-Learning)

تعلم Q (Q-learning)، الذي قدمه كريستوفر واتكينز وبيتر داين في عام 1992، هو خوارزمية تعلم معزز خالية من النماذج تتعلم قيمة اتخاذ كل إجراء في كل حالة - دالة Q - بشكل بحت من التجربة، دون نموذج للبيئة. إنها خارج السياسة (off-policy): تتعلم قيم الإجراءات المثلى أثناء اتباع سياسة سلوك استكشافي، وتحت الظروف القياسية تثبت نظريًا تقاربها إلى السياسة المثلى.

افتح في MethodMindقريبًافيديوقريبًاDownload slides

اقرأ الطريقة كاملة

للأعضاء فقط

سجّل الدخول بحساب مجاني لقراءة هذا القسم.

تسجيل الدخول

Method map

The neighbourhood of related methods — select a node to explore.

تعلم Q (Q-Learning)

التعلم المعزز العميق البرمجة الديناميكية أساليب تدرج السياسة

المصادر

Watkins, C. J. C. H., & Dayan, P. (1992). Q-learning. Machine Learning, 8(3–4), 279–292. DOI: 10.1007/BF00992698 ↗
Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6

كيف تستشهد بهذه الصفحة

ScholarGate. (2026, June 2). Q-Learning (Off-Policy Temporal-Difference Control). ScholarGate. https://scholargate.app/ar/machine-learning/q-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

التعلم المعزز العميقالتعلم العميق↔ compare
البرمجة الديناميكيةالتحسين↔ compare
أساليب تدرج السياسةتعلم الآلة↔ compare

Compare side by side →

يُستشهد بها في

أساليب تدرج السياسة

هل لاحظت مشكلة في هذه الصفحة؟ أبلغ عنها أو اقترح تصحيحًا →