ScholarGate
دستیار

روش‌های گرادیان سیاست

روش‌های گرادیان سیاست مستقیماً یک سیاست پارامتری‌شده را با صعود گرادیان پاداش مورد انتظار بهینه می‌کنند، نه اینکه سیاست را از یک تابع ارزش استخراج کنند.

یافتن موضوع با PaperMindبه‌زودیFind papers & topics
Tools & resources
دریافت اسلایدها
Learn & explore
ویدیوبه‌زودی

Definition

روش‌های گرادیان سیاست، سیاست را به عنوان تابعی مشتق‌پذیر از پارامترها نمایش می‌دهند و آن پارامترها را در جهتی که پاداش تجمعی مورد انتظار را افزایش می‌دهد، به‌روزرسانی می‌کنند و گرادیان مورد نیاز را از مسیرهای نمونه‌برداری شده از تعامل عامل با محیط تخمین می‌زنند.

Scope

این موضوع روش‌های یادگیری تقویتی را پوشش می‌دهد که مستقیماً پارامترهای سیاست را تنظیم می‌کنند: قضیه گرادیان سیاست و الگوریتم REINFORCE، استفاده از خطوط پایه و تخمین‌های مزیت برای کاهش واریانس، روش‌های بازیگر-منتقد که یک سیاست آموخته‌شده را با یک تابع ارزش آموخته‌شده ترکیب می‌کنند، و بهینه‌سازی سیاست مدرن ناحیه اعتماد و سیاست مجاور. این موضوع به این می‌پردازد که چرا بهینه‌سازی مستقیم سیاست برای اقدامات پیوسته و سیاست‌های تصادفی مناسب است.

Core questions

  • چگونه می‌توان یک سیاست را مستقیماً با صعود گرادیان بهبود بخشید؟
  • قضیه گرادیان سیاست چه چیزی را بیان می‌کند؟
  • چگونه خطوط پایه و منتقدان واریانس تخمین‌های گرادیان را کاهش می‌دهند؟
  • چرا روش‌های گرادیان سیاست برای فضاهای عمل پیوسته مناسب هستند؟

Key theories

قضیه گرادیان سیاست
گرادیان پاداش مورد انتظار نسبت به پارامترهای سیاست را می‌توان به عنوان یک امید ریاضی بر روی مسیرها نوشت، که امکان تخمین آن را از تجربه نمونه‌برداری شده بدون مشتق‌گیری از محیط فراهم می‌کند.
روش‌های بازیگر-منتقد
ترکیب یک سیاست که با صعود گرادیان بهبود می‌یابد با یک تابع ارزش آموخته‌شده که یک نقد با واریانس کم ارائه می‌دهد، منجر به روش‌های بازیگر-منتقد می‌شود که پایدارتر و کارآمدتر از گرادیان‌های سیاست خالص یاد می‌گیرند.
بهینه‌سازی سیاست در مقیاس
یادگیری مبتنی بر سیاست، که اغلب با تخمین ارزش و جستجو ترکیب می‌شود، زیربنای موفقیت‌های بزرگ مقیاس مانند سیستم‌های بازی Go است که از طریق خودبازی بر بازی مسلط شدند.

Clinical relevance

روش‌های گرادیان سیاست و بازیگر-منتقد رویکرد استاندارد برای یادگیری تقویتی در کنترل پیوسته، رباتیک، و تنظیم دقیق مدل‌های زبان بزرگ از بازخورد انسانی هستند، زیرا آنها سیاست‌های تصادفی را مستقیماً بهینه می‌کنند و فضاهای عملی را که روش‌های مبتنی بر ارزش با آنها مشکل دارند، مدیریت می‌کنند.

History

الگوریتم REINFORCE ویلیامز در سال 1992 راهی مستقیم برای تخمین گرادیان‌های سیاست ارائه داد و قضیه گرادیان سیاست در اواخر دهه 1990 مبنای محکمی را فراهم کرد. معماری‌های بازیگر-منتقد و بعدها روش‌های ناحیه اعتماد و مجاور، پایداری را بهبود بخشیدند و بهینه‌سازی سیاست را به هسته یادگیری تقویتی در مقیاس بزرگ مدرن تبدیل کردند.

Key figures

  • Ronald Williams
  • Richard Sutton
  • David Silver

Related topics

Seminal works

  • sutton2018
  • silver2016
  • williams1992

Frequently asked questions

چرا سیاست را مستقیماً بهینه کنیم به جای یک تابع ارزش؟
بهینه‌سازی مستقیم سیاست به طور طبیعی سیاست‌های تصادفی و فضاهای عمل پیوسته را مدیریت می‌کند، جایی که استخراج یک سیاست از یک تابع ارزش دشوار است. همچنین امکان بهبود هموار و تدریجی رفتار را فراهم می‌کند که برای وظایف کنترل و رباتیک مناسب است.
روش بازیگر-منتقد چیست؟
یک روش بازیگر-منتقد دو جزء آموخته‌شده را حفظ می‌کند: یک بازیگر، سیاستی که اقدامات را انتخاب می‌کند، و یک منتقد، تخمین ارزشی که کیفیت آن اقدامات را قضاوت می‌کند. بازخورد منتقد واریانس به‌روزرسانی‌های سیاست را کاهش می‌دهد و یادگیری را پایدارتر می‌کند.

Methods for this concept

Related concepts