ما الذي يعتمد عليه تعلم الفروق الزمنية (temporal-difference learning) في التمهيد (bootstrap)؟

يقوم بتحديث قيمة الحالة الحالية باستخدام المكافأة المرصودة بالإضافة إلى تقديره الخاص لقيمة الحالة التالية. ولأنه يعتمد جزئيًا على تقدير آخر بدلاً من انتظار النتيجة النهائية، يمكنه التعلم عبر الإنترنت ومن الحلقات غير المكتملة.

لماذا يُطلق على التعلم Q (Q-learning) اسم التعلم غير المعتمد على السياسة (off-policy)؟

يتعلم التعلم Q (Q-learning) قيمة السياسة المثلى حتى عندما يتبع الوكيل سياسة استكشافية مختلفة لجمع الخبرة. يمكن أن يختلف السلوك المستخدم لجمع البيانات والسياسة التي يتم تقييمها، وهذا هو معنى غير المعتمد على السياسة.

الأساليب القائمة على القيمة

تتعلم الأساليب القائمة على القيمة مدى جودة الحالات والإجراءات، ثم تتصرف بشراهة فيما يتعلق بتلك التقديرات للحصول على سياسة جيدة.

اعثر على موضوع باستخدام PaperMindقريبًاFind papers & topics

Tools & resources

تنزيل الشرائح

Learn & explore

فيديوقريبًا

Definition

تقدر الأساليب القائمة على القيمة العائد المتوقع للحالات أو أزواج الحالة-الإجراء وتستمد سياسة عن طريق اختيار الإجراءات ذات القيمة المقدرة الأعلى؛ وتتعلم هذه التقديرات تدريجيًا من التجربة، غالبًا عن طريق تحديثات الفروق الزمنية التي تعدل التنبؤ نحو تنبؤ لاحق وأكثر استنارة.

Scope

يغطي هذا الموضوع خوارزميات التعلم المعزز التي تركز على دوال القيمة: تقدير مونت كارلو من الحلقات الكاملة، وتعلم الفروق الزمنية الذي يعتمد على تقديرات لاحقة، وخوارزميات التحكم سارسا (Sarsa) والتعلم Q (Q-learning). ويتناول التعلم المعتمد على السياسة مقابل التعلم غير المعتمد على السياسة، والاستكشاف من خلال استراتيجيات مثل إبسيلون-جشع (epsilon-greedy)، واستخدام تقريب الدالة عندما تكون الحالات كثيرة جدًا بحيث لا يمكن تعدادها.

Core questions

كيف يتم تعلم قيم الإجراءات من التجربة؟
كيف يجمع تعلم الفروق الزمنية بين أخذ العينات والتمهيد (bootstrapping)؟
ما الفرق بين التعلم المعتمد على السياسة والتعلم غير المعتمد على السياسة؟
كيف يتم التعامل مع الاستكشاف عند التصرف بشراهة بناءً على تقديرات القيمة؟

Key theories

تعلم الفروق الزمنية: تقوم أساليب الفروق الزمنية بتحديث تقدير القيمة نحو المكافأة المرصودة بالإضافة إلى التقدير المخصوم للحالة التالية، وتتعلم عبر الإنترنت من حلقات غير مكتملة دون نموذج للبيئة.
التعلم Q (Q-learning): يقدر التعلم Q (Q-learning) قيمة أفضل إجراء في كل حالة ويتقارب مع دالة قيمة الإجراء المثلى بغض النظر عن السياسة المستخدمة لجمع الخبرة، مما يجعله طريقة أساسية غير معتمدة على السياسة.
تقريب القيمة باستخدام الشبكات العميقة: إن تمثيل دالة قيمة الإجراء بشبكة عميقة يتيح للأساليب القائمة على القيمة التعامل مع المدخلات عالية الأبعاد مثل وحدات البكسل الخام، كما هو الحال في شبكة Q العميقة التي تعلمت لعب العديد من ألعاب أتاري (Atari).

Clinical relevance

تعد الأساليب القائمة على القيمة من بين خوارزميات التعلم المعزز الأكثر استخدامًا، وقد أنتج التعلم Q (Q-learning) جنبًا إلى جنب مع الشبكات العميقة أولى العوامل التي وصلت إلى أداء بمستوى بشري مباشرة من المدخلات الحسية عالية الأبعاد، مما يدل على كيفية توسع تقدير القيمة ليشمل المهام المعقدة.

History

قدم سوتون (Sutton) تعلم الفروق الزمنية في عام 1988، وقدم تعلم Q (Q-learning) لواتكينز (Watkins) في عام 1989 طريقة تحكم متقاربة غير معتمدة على السياسة. وقد أدى الجمع بين تعلم Q (Q-learning) والشبكات العميقة في شبكة Q العميقة (deep Q-network) عام 2015 إلى جلب التعلم المعزز القائم على القيمة إلى المشكلات عالية الأبعاد وأطلق عصر التعلم المعزز العميق الحديث.

Key figures

Richard Sutton
Christopher Watkins
Volodymyr Mnih

Seminal works

sutton2018
mnih2015
watkins1992

Frequently asked questions

ما الذي يعتمد عليه تعلم الفروق الزمنية (temporal-difference learning) في التمهيد (bootstrap)؟: يقوم بتحديث قيمة الحالة الحالية باستخدام المكافأة المرصودة بالإضافة إلى تقديره الخاص لقيمة الحالة التالية. ولأنه يعتمد جزئيًا على تقدير آخر بدلاً من انتظار النتيجة النهائية، يمكنه التعلم عبر الإنترنت ومن الحلقات غير المكتملة.
لماذا يُطلق على التعلم Q (Q-learning) اسم التعلم غير المعتمد على السياسة (off-policy)؟: يتعلم التعلم Q (Q-learning) قيمة السياسة المثلى حتى عندما يتبع الوكيل سياسة استكشافية مختلفة لجمع الخبرة. يمكن أن يختلف السلوك المستخدم لجمع البيانات والسياسة التي يتم تقييمها، وهذا هو معنى غير المعتمد على السياسة.