چرا سیاست را مستقیماً بهینه کنیم به جای یک تابع ارزش؟

بهینهسازی مستقیم سیاست به طور طبیعی سیاستهای تصادفی و فضاهای عمل پیوسته را مدیریت میکند، جایی که استخراج یک سیاست از یک تابع ارزش دشوار است. همچنین امکان بهبود هموار و تدریجی رفتار را فراهم میکند که برای وظایف کنترل و رباتیک مناسب است.

روش بازیگر-منتقد چیست؟

یک روش بازیگر-منتقد دو جزء آموختهشده را حفظ میکند: یک بازیگر، سیاستی که اقدامات را انتخاب میکند، و یک منتقد، تخمین ارزشی که کیفیت آن اقدامات را قضاوت میکند. بازخورد منتقد واریانس بهروزرسانیهای سیاست را کاهش میدهد و یادگیری را پایدارتر میکند.

روش‌های گرادیان سیاست

روش‌های گرادیان سیاست مستقیماً یک سیاست پارامتری‌شده را با صعود گرادیان پاداش مورد انتظار بهینه می‌کنند، نه اینکه سیاست را از یک تابع ارزش استخراج کنند.

یافتن موضوع با PaperMindبه‌زودیFind papers & topics

Tools & resources

دریافت اسلایدها

Learn & explore

ویدیوبه‌زودی

Definition

روش‌های گرادیان سیاست، سیاست را به عنوان تابعی مشتق‌پذیر از پارامترها نمایش می‌دهند و آن پارامترها را در جهتی که پاداش تجمعی مورد انتظار را افزایش می‌دهد، به‌روزرسانی می‌کنند و گرادیان مورد نیاز را از مسیرهای نمونه‌برداری شده از تعامل عامل با محیط تخمین می‌زنند.

Scope

این موضوع روش‌های یادگیری تقویتی را پوشش می‌دهد که مستقیماً پارامترهای سیاست را تنظیم می‌کنند: قضیه گرادیان سیاست و الگوریتم REINFORCE، استفاده از خطوط پایه و تخمین‌های مزیت برای کاهش واریانس، روش‌های بازیگر-منتقد که یک سیاست آموخته‌شده را با یک تابع ارزش آموخته‌شده ترکیب می‌کنند، و بهینه‌سازی سیاست مدرن ناحیه اعتماد و سیاست مجاور. این موضوع به این می‌پردازد که چرا بهینه‌سازی مستقیم سیاست برای اقدامات پیوسته و سیاست‌های تصادفی مناسب است.

Core questions

چگونه می‌توان یک سیاست را مستقیماً با صعود گرادیان بهبود بخشید؟
قضیه گرادیان سیاست چه چیزی را بیان می‌کند؟
چگونه خطوط پایه و منتقدان واریانس تخمین‌های گرادیان را کاهش می‌دهند؟
چرا روش‌های گرادیان سیاست برای فضاهای عمل پیوسته مناسب هستند؟

Key theories

قضیه گرادیان سیاست: گرادیان پاداش مورد انتظار نسبت به پارامترهای سیاست را می‌توان به عنوان یک امید ریاضی بر روی مسیرها نوشت، که امکان تخمین آن را از تجربه نمونه‌برداری شده بدون مشتق‌گیری از محیط فراهم می‌کند.
روش‌های بازیگر-منتقد: ترکیب یک سیاست که با صعود گرادیان بهبود می‌یابد با یک تابع ارزش آموخته‌شده که یک نقد با واریانس کم ارائه می‌دهد، منجر به روش‌های بازیگر-منتقد می‌شود که پایدارتر و کارآمدتر از گرادیان‌های سیاست خالص یاد می‌گیرند.
بهینه‌سازی سیاست در مقیاس: یادگیری مبتنی بر سیاست، که اغلب با تخمین ارزش و جستجو ترکیب می‌شود، زیربنای موفقیت‌های بزرگ مقیاس مانند سیستم‌های بازی Go است که از طریق خودبازی بر بازی مسلط شدند.

Clinical relevance

روش‌های گرادیان سیاست و بازیگر-منتقد رویکرد استاندارد برای یادگیری تقویتی در کنترل پیوسته، رباتیک، و تنظیم دقیق مدل‌های زبان بزرگ از بازخورد انسانی هستند، زیرا آنها سیاست‌های تصادفی را مستقیماً بهینه می‌کنند و فضاهای عملی را که روش‌های مبتنی بر ارزش با آنها مشکل دارند، مدیریت می‌کنند.

History

الگوریتم REINFORCE ویلیامز در سال 1992 راهی مستقیم برای تخمین گرادیان‌های سیاست ارائه داد و قضیه گرادیان سیاست در اواخر دهه 1990 مبنای محکمی را فراهم کرد. معماری‌های بازیگر-منتقد و بعدها روش‌های ناحیه اعتماد و مجاور، پایداری را بهبود بخشیدند و بهینه‌سازی سیاست را به هسته یادگیری تقویتی در مقیاس بزرگ مدرن تبدیل کردند.

Key figures

Ronald Williams
Richard Sutton
David Silver

Seminal works

sutton2018
silver2016
williams1992

Frequently asked questions

چرا سیاست را مستقیماً بهینه کنیم به جای یک تابع ارزش؟: بهینه‌سازی مستقیم سیاست به طور طبیعی سیاست‌های تصادفی و فضاهای عمل پیوسته را مدیریت می‌کند، جایی که استخراج یک سیاست از یک تابع ارزش دشوار است. همچنین امکان بهبود هموار و تدریجی رفتار را فراهم می‌کند که برای وظایف کنترل و رباتیک مناسب است.
روش بازیگر-منتقد چیست؟: یک روش بازیگر-منتقد دو جزء آموخته‌شده را حفظ می‌کند: یک بازیگر، سیاستی که اقدامات را انتخاب می‌کند، و یک منتقد، تخمین ارزشی که کیفیت آن اقدامات را قضاوت می‌کند. بازخورد منتقد واریانس به‌روزرسانی‌های سیاست را کاهش می‌دهد و یادگیری را پایدارتر می‌کند.