روشهای گرادیان سیاست
روشهای گرادیان سیاست مستقیماً یک سیاست پارامتریشده را با صعود گرادیان پاداش مورد انتظار بهینه میکنند، نه اینکه سیاست را از یک تابع ارزش استخراج کنند.
Definition
روشهای گرادیان سیاست، سیاست را به عنوان تابعی مشتقپذیر از پارامترها نمایش میدهند و آن پارامترها را در جهتی که پاداش تجمعی مورد انتظار را افزایش میدهد، بهروزرسانی میکنند و گرادیان مورد نیاز را از مسیرهای نمونهبرداری شده از تعامل عامل با محیط تخمین میزنند.
Scope
این موضوع روشهای یادگیری تقویتی را پوشش میدهد که مستقیماً پارامترهای سیاست را تنظیم میکنند: قضیه گرادیان سیاست و الگوریتم REINFORCE، استفاده از خطوط پایه و تخمینهای مزیت برای کاهش واریانس، روشهای بازیگر-منتقد که یک سیاست آموختهشده را با یک تابع ارزش آموختهشده ترکیب میکنند، و بهینهسازی سیاست مدرن ناحیه اعتماد و سیاست مجاور. این موضوع به این میپردازد که چرا بهینهسازی مستقیم سیاست برای اقدامات پیوسته و سیاستهای تصادفی مناسب است.
Core questions
- چگونه میتوان یک سیاست را مستقیماً با صعود گرادیان بهبود بخشید؟
- قضیه گرادیان سیاست چه چیزی را بیان میکند؟
- چگونه خطوط پایه و منتقدان واریانس تخمینهای گرادیان را کاهش میدهند؟
- چرا روشهای گرادیان سیاست برای فضاهای عمل پیوسته مناسب هستند؟
Key theories
- قضیه گرادیان سیاست
- گرادیان پاداش مورد انتظار نسبت به پارامترهای سیاست را میتوان به عنوان یک امید ریاضی بر روی مسیرها نوشت، که امکان تخمین آن را از تجربه نمونهبرداری شده بدون مشتقگیری از محیط فراهم میکند.
- روشهای بازیگر-منتقد
- ترکیب یک سیاست که با صعود گرادیان بهبود مییابد با یک تابع ارزش آموختهشده که یک نقد با واریانس کم ارائه میدهد، منجر به روشهای بازیگر-منتقد میشود که پایدارتر و کارآمدتر از گرادیانهای سیاست خالص یاد میگیرند.
- بهینهسازی سیاست در مقیاس
- یادگیری مبتنی بر سیاست، که اغلب با تخمین ارزش و جستجو ترکیب میشود، زیربنای موفقیتهای بزرگ مقیاس مانند سیستمهای بازی Go است که از طریق خودبازی بر بازی مسلط شدند.
Clinical relevance
روشهای گرادیان سیاست و بازیگر-منتقد رویکرد استاندارد برای یادگیری تقویتی در کنترل پیوسته، رباتیک، و تنظیم دقیق مدلهای زبان بزرگ از بازخورد انسانی هستند، زیرا آنها سیاستهای تصادفی را مستقیماً بهینه میکنند و فضاهای عملی را که روشهای مبتنی بر ارزش با آنها مشکل دارند، مدیریت میکنند.
History
الگوریتم REINFORCE ویلیامز در سال 1992 راهی مستقیم برای تخمین گرادیانهای سیاست ارائه داد و قضیه گرادیان سیاست در اواخر دهه 1990 مبنای محکمی را فراهم کرد. معماریهای بازیگر-منتقد و بعدها روشهای ناحیه اعتماد و مجاور، پایداری را بهبود بخشیدند و بهینهسازی سیاست را به هسته یادگیری تقویتی در مقیاس بزرگ مدرن تبدیل کردند.
Key figures
- Ronald Williams
- Richard Sutton
- David Silver
Related topics
Seminal works
- sutton2018
- silver2016
- williams1992
Frequently asked questions
- چرا سیاست را مستقیماً بهینه کنیم به جای یک تابع ارزش؟
- بهینهسازی مستقیم سیاست به طور طبیعی سیاستهای تصادفی و فضاهای عمل پیوسته را مدیریت میکند، جایی که استخراج یک سیاست از یک تابع ارزش دشوار است. همچنین امکان بهبود هموار و تدریجی رفتار را فراهم میکند که برای وظایف کنترل و رباتیک مناسب است.
- روش بازیگر-منتقد چیست؟
- یک روش بازیگر-منتقد دو جزء آموختهشده را حفظ میکند: یک بازیگر، سیاستی که اقدامات را انتخاب میکند، و یک منتقد، تخمین ارزشی که کیفیت آن اقدامات را قضاوت میکند. بازخورد منتقد واریانس بهروزرسانیهای سیاست را کاهش میدهد و یادگیری را پایدارتر میکند.