ماذا أظهرت شبكة Q العميقة؟

لقد أظهرت أن وكيل شبكة عصبية واحد يمكنه تعلّم لعب عشرات الألعاب المختلفة من أتاري مباشرة من وحدات بكسل الشاشة والنتيجة، والوصول إلى مستوى أداء بشري في العديد منها دون ضبط خاص باللعبة، باستخدام إعادة تشغيل التجربة وشبكة هدف لتحقيق الاستقرار.

لماذا غالبًا ما يكون التعلّم العميق المعزز غير مستقر؟

يمكن أن يؤدي الجمع بين تقديرات القيمة التمهيدية (bootstrapped value estimates) وبيانات خارج السياسة (off-policy data) وتقريب الشبكة العصبية إلى تضخيم الأخطاء والتسبب في تباعد التدريب. تُستخدم تقنيات مثل إعادة تشغيل التجربة والشبكات الهدف واختيارات معدل التعلّم الدقيقة للحفاظ على استقرار التعلّم.

التعلّم العميق المعزز

يستخدم التعلّم العميق المعزز الشبكات العصبية لتقريب دوال القيمة أو السياسات، مما يوسع نطاق التعلّم المعزز ليشمل المدخلات عالية الأبعاد مثل الصور والألعاب المعقدة.

اعثر على موضوع باستخدام PaperMindقريبًاFind papers & topics

Tools & resources

تنزيل الشرائح

Learn & explore

فيديوقريبًا

Definition

التعلّم العميق المعزز هو تعلّم معزز تُستخدم فيه الشبكات العصبية العميقة كمقربات للدوال لدوال القيمة أو السياسات أو النماذج، مما يمكّن الوكلاء من التعلّم مباشرة من الملاحظات الخام عالية الأبعاد بدلاً من ميزات الحالة المصممة يدويًا.

Scope

يغطي هذا الموضوع دمج التعلّم المعزز مع الشبكات العصبية العميقة: شبكات Q العميقة مع إعادة تشغيل التجربة والشبكات الهدف لتحقيق الاستقرار، وطرق الممثل-الناقد (actor-critic) العميقة وطرق تحسين السياسة، ودمج التعلّم مع البحث كما هو الحال في أنظمة لعب الألعاب. ويتناول تحديات استقرار تدريب دوال القيمة باستخدام تقريب الدوال والإنجازات البارزة الناتجة عن ذلك.

Core questions

كيف تسمح الشبكات العصبية للتعلّم المعزز بالتعامل مع المدخلات الخام عالية الأبعاد؟
لماذا يميل دمج تعلّم القيمة مع تقريب الدوال إلى عدم الاستقرار؟
ما هي التقنيات مثل إعادة تشغيل التجربة والشبكات الهدف التي تعمل على استقرار التدريب؟
كيف يتم دمج التعلّم والبحث في وكلاء لعب الألعاب؟

Key theories

شبكات Q العميقة: تقريب قيم الإجراءات بشبكة عميقة، تم تثبيتها بواسطة إعادة تشغيل التجربة وشبكة هدف يتم تحديثها ببطء، سمح لبنية واحدة بتعلّم العديد من ألعاب أتاري من وحدات البكسل إلى المستوى البشري.
التعلّم المدمج مع البحث: أدى دمج شبكات السياسة والقيمة العميقة مع بحث شجرة مونت كارلو والتدريب من خلال اللعب الذاتي إلى إنتاج أنظمة أتقنت لعبة Go، متجاوزة أقوى اللاعبين البشريين.
استقرار تقريب الدوال: يمكن أن يؤدي الجمع بين التمهيد (bootstrapping) والتعلّم خارج السياسة (off-policy learning) وتقريب الدوال إلى تباعد التدريب، لذا يعتمد التعلّم العميق المعزز على تقنيات دقيقة للحفاظ على استقرار تقديرات القيمة.

Clinical relevance

أنتج التعلّم العميق المعزز بعضًا من أبرز مظاهر الذكاء الاصطناعي، بما في ذلك اللعب الخارق للألعاب والتقدم في الروبوتات والتحكم، وتُفيد تقنياته في الضبط الدقيق للنماذج الكبيرة المدفوع بالمكافآت؛ ولا تزال تكلفته العالية من العينات وعدم استقرار التدريب يمثلان قيودًا عملية مهمة.

History

أظهرت شبكة Q العميقة عام 2015 أن التعلّم المعزز مع تقريب الدوال العميق يمكن أن يتعلّم مباشرة من وحدات البكسل، وجمعت أنظمة لعب Go لعام 2016 بين الشبكات العميقة والبحث واللعب الذاتي لهزيمة أفضل اللاعبين البشريين. هذه النتائج، التي بُنيت على أسس التعلّم المعزز التي وضعها ساتون وبارتو، رسخت التعلّم العميق المعزز كاتجاه بحثي رئيسي.

Key figures

Volodymyr Mnih
David Silver
Demis Hassabis

Seminal works

mnih2015
silver2016
sutton2018

Frequently asked questions

ماذا أظهرت شبكة Q العميقة؟: لقد أظهرت أن وكيل شبكة عصبية واحد يمكنه تعلّم لعب عشرات الألعاب المختلفة من أتاري مباشرة من وحدات بكسل الشاشة والنتيجة، والوصول إلى مستوى أداء بشري في العديد منها دون ضبط خاص باللعبة، باستخدام إعادة تشغيل التجربة وشبكة هدف لتحقيق الاستقرار.
لماذا غالبًا ما يكون التعلّم العميق المعزز غير مستقر؟: يمكن أن يؤدي الجمع بين تقديرات القيمة التمهيدية (bootstrapped value estimates) وبيانات خارج السياسة (off-policy data) وتقريب الشبكة العصبية إلى تضخيم الأخطاء والتسبب في تباعد التدريب. تُستخدم تقنيات مثل إعادة تشغيل التجربة والشبكات الهدف واختيارات معدل التعلّم الدقيقة للحفاظ على استقرار التعلّم.