كيف يختلف هذا عن تعلم التعزيز؟

يفترض اتخاذ القرار المتسلسل باستخدام عمليات ماركوف لاتخاذ القرار (MDPs) أن نموذج الانتقال والمكافأة معروف، لذلك يمكن حساب سياسة مثلى مباشرة عن طريق البرمجة الديناميكية. يتناول تعلم التعزيز الحالة التي يكون فيها النموذج غير معروف ويجب على الوكيل تعلم سياسة جيدة من التجربة؛ ويستخدم MDP كصيغة أساسية له.

ما هي حالة الاعتقاد في POMDP؟

في عملية ماركوف لاتخاذ القرار القابلة للملاحظة جزئيًا (POMDP)، لا يستطيع الوكيل رؤية الحالة الحقيقية، لذلك يحتفظ بحالة اعتقاد، وهي توزيع احتمالي على الحالات الممكنة، يتم تحديثها عندما يتخذ إجراءات ويتلقى ملاحظات. ثم يتم التخطيط بناءً على حالات الاعتقاد هذه بدلاً من الحالات المخفية مباشرة.

اتخاذ القرار المتسلسل (عمليات ماركوف لاتخاذ القرار)

يُصيغ اتخاذ القرار المتسلسل كيفية تصرف الوكيل بمرور الوقت في بيئة عشوائية، باستخدام عمليات ماركوف لاتخاذ القرار التي تُنتج فيها الإجراءات مكافآت وتُغير الحالة احتماليًا، لحساب سياسة تزيد من المكافأة المتوقعة على المدى الطويل.

اعثر على موضوع باستخدام PaperMindقريبًاFind papers & topics

Tools & resources

تنزيل الشرائح

Learn & explore

فيديوقريبًا

Definition

تُعرّف عملية ماركوف لاتخاذ القرار بالحالات، والإجراءات، ودالة احتمال الانتقال، ودالة المكافأة؛ ويسعى اتخاذ القرار المتسلسل إلى سياسة تربط الحالات بالإجراءات التي تزيد من المكافأة التراكمية المتوقعة (المخصومة عادةً)، بالنظر إلى النموذج.

Scope

يغطي هذا الموضوع التخطيط القائم على نظرية القرار بمرور الوقت: نموذج عملية ماركوف لاتخاذ القرار (MDP) للحالات، والإجراءات، واحتمالات الانتقال، والمكافآت، والخصم؛ والسياسات ووظائف القيمة؛ ومعادلات بيلمان التي تميز السلوك الأمثل؛ وخوارزميات البرمجة الديناميكية لتكرار القيمة وتكرار السياسة لحل نموذج معروف. كما يقدم عمليات ماركوف لاتخاذ القرار القابلة للملاحظة جزئيًا (POMDPs) والتخطيط لحالة الاعتقاد. ينصب التركيز على التخطيط عندما يكون النموذج معطى؛ أما تعلم سياسة من التجربة بدون نموذج معروف فهو تعلم التعزيز، والذي ينتمي إلى المجال الفرعي للتعلم الآلي.

Core questions

كيف يُنمذج العمل بمرور الوقت تحت الانتقالات العشوائية كحالات وإجراءات وانتقالات ومكافآت؟
ماذا تقول معادلة بيلمان المثلى حول قيمة السياسة المثلى؟
كيف تحسب خوارزميتا تكرار القيمة وتكرار السياسة سياسة مثلى عندما يكون النموذج معروفًا؟
كيف تؤدي الملاحظة الجزئية إلى عمليات ماركوف لاتخاذ القرار القابلة للملاحظة جزئيًا (POMDPs) والتخطيط بناءً على حالات الاعتقاد؟

Key concepts

الحالات، الإجراءات، الانتقالات، المكافآت
السياسة
دالة القيمة
عامل الخصم
معادلات بيلمان
تكرار القيمة
تكرار السياسة
POMDP وحالة الاعتقاد

Key theories

معادلة بيلمان المثلى: تساوي القيمة المثلى للحالة أفضل مكافأة فورية مضافًا إليها القيمة المثلى المتوقعة المخصومة للحالة التالية؛ وتميز هذه العلاقة التكرارية السلوك المتسلسل الأمثل وهي أساس حلول البرمجة الديناميكية.
تكرار القيمة والسياسة: بالنسبة لعملية ماركوف لاتخاذ القرار (MDP) المعروفة، يطبق تكرار القيمة تحديث بيلمان بشكل متكرر حتى التقارب، ويتناوب تكرار السياسة بين تقييم السياسة وتحسينها؛ وكلاهما مضمون لإيجاد سياسة مثلى.
عمليات ماركوف لاتخاذ القرار القابلة للملاحظة جزئيًا: عندما لا تكون الحالة قابلة للملاحظة مباشرة، يتم التخطيط بناءً على حالة اعتقاد (توزيع على الحالات) يتم تحديثها من الملاحظات؛ وحل مثل هذه الـ POMDPs أصعب بكثير من الحالة القابلة للملاحظة بالكامل ولكنه يلتقط قيود الاستشعار الواقعية.

Clinical relevance

يُعد اتخاذ القرار القائم على MDP و POMDP أساسًا للملاحة والتحكم في الروبوتات، وإدارة الحوار الآلي، وقرارات الصيانة والمخزون، وتخصيص الموارد، ويوفر أساس التخطيط القائم على نظرية القرار الذي يبني عليه تعلم التعزيز عندما يجب تعلم نموذج البيئة بدلاً من ذلك.

History

نشأ اتخاذ القرار المتسلسل من البرمجة الديناميكية لبيلمان (1957) وتكرار السياسة لهوارد (1960). وقد عززت دراسة بوترمان الأحادية لعام 1994 نظرية عمليات ماركوف لاتخاذ القرار، وأدخل كل من كايلبلينغ، وليتمان، وكاساندرا (1998) عمليات ماركوف لاتخاذ القرار القابلة للملاحظة جزئيًا في الذكاء الاصطناعي السائد كنموذج للعمل في ظل الإدراك غير المؤكد.

Key figures

Richard Bellman
Ronald A. Howard
Martin L. Puterman
Leslie P. Kaelbling
Michael L. Littman

Seminal works

bellman1957
puterman1994
kaelbling1998

Frequently asked questions

كيف يختلف هذا عن تعلم التعزيز؟: يفترض اتخاذ القرار المتسلسل باستخدام عمليات ماركوف لاتخاذ القرار (MDPs) أن نموذج الانتقال والمكافأة معروف، لذلك يمكن حساب سياسة مثلى مباشرة عن طريق البرمجة الديناميكية. يتناول تعلم التعزيز الحالة التي يكون فيها النموذج غير معروف ويجب على الوكيل تعلم سياسة جيدة من التجربة؛ ويستخدم MDP كصيغة أساسية له.
ما هي حالة الاعتقاد في POMDP؟: في عملية ماركوف لاتخاذ القرار القابلة للملاحظة جزئيًا (POMDP)، لا يستطيع الوكيل رؤية الحالة الحقيقية، لذلك يحتفظ بحالة اعتقاد، وهي توزيع احتمالي على الحالات الممكنة، يتم تحديثها عندما يتخذ إجراءات ويتلقى ملاحظات. ثم يتم التخطيط بناءً على حالات الاعتقاد هذه بدلاً من الحالات المخفية مباشرة.