پسانتشار و بهینهسازی
پسانتشار به طور کارآمد گرادیان تابع زیان یک شبکه را نسبت به وزنهای آن محاسبه میکند و بهینهسازهای مبتنی بر گرادیان از این گرادیان برای آموزش شبکه استفاده میکنند.
Definition
پسانتشار الگوریتمی است که گرادیان یک تابع زیان را نسبت به هر وزن در یک شبکه عصبی با انتشار سیگنالهای خطا به عقب از طریق لایهها با استفاده از قاعده زنجیرهای محاسبه میکند؛ سپس بهینهسازی، وزنها را، معمولاً با نزول گرادیان تصادفی، برای کاهش زیان بهروزرسانی میکند.
Scope
این موضوع به نحوه آموزش شبکههای عمیق میپردازد: الگوریتم پسانتشار به عنوان کاربردی از قاعده زنجیرهای برای محاسبه گرادیانها لایه به لایه، نزول گرادیان تصادفی و شکل دستهای کوچک آن، روشهای تکانه و نرخ یادگیری تطبیقی، و چالشهای عملی گرادیانهای ناپدیدشونده و منفجرشونده، انتخاب نرخ یادگیری، و همگرایی در سطوح زیان غیرمحدب.
Core questions
- پسانتشار چگونه گرادیانها را به طور کارآمد محاسبه میکند؟
- چرا نزول گرادیان تصادفی برای مجموعه دادههای بزرگ ترجیح داده میشود؟
- چگونه روشهای تکانه و تطبیقی آموزش را تسریع میکنند؟
- چه چیزی باعث گرادیانهای ناپدیدشونده یا منفجرشونده میشود و چگونه میتوان آنها را کاهش داد؟
Key theories
- پسانتشار از طریق قاعده زنجیرهای
- با اعمال قاعده زنجیرهای از خروجی به عقب، الگوریتم از نتایج میانی مجدداً استفاده میکند تا تمام گرادیانهای وزن را در زمانی متناسب با گذر رو به جلو محاسبه کند، که آموزش شبکههای بزرگ را امکانپذیر میسازد.
- نزول گرادیان تصادفی
- تخمین گرادیان از دستههای تصادفی کوچک، هر بهروزرسانی را ارزان میکند و نویز مفیدی را معرفی میکند که آموزش بر روی مجموعه دادههای بسیار بزرگ را ممکن میسازد و اغلب تعمیمپذیری را بهبود میبخشد.
- روشهای تطبیقی و تکانه
- تکانه گرادیانهای گذشته را برای هموار کردن نزول انباشته میکند، و روشهای تطبیقی اندازه گام را برای هر پارامتر مقیاسبندی میکنند، که هر دو همگرایی را در سطوح زیان بدحالت که در شبکههای عمیق رایج است، سرعت میبخشند.
Clinical relevance
پسانتشار با نزول گرادیان تصادفی موتور محرک تقریباً تمام یادگیری عمیق مدرن است؛ درک چگونگی جریان گرادیانها هم توضیح میدهد که چرا آموزش شبکههای عمیق در گذشته دشوار بود و هم اینکه چگونه نوآوریها در فعالسازیها، مقداردهی اولیه، و بهینهسازها شبکههای بسیار عمیق را عملی ساختند.
History
پسانتشار در چندین زمینه، از جمله پایاننامه وربوس در سال ۱۹۷۴، استخراج شد و توسط روملهارت، هینتون و ویلیامز در سال ۱۹۸۶ به شهرت رسید. نزول گرادیان تصادفی و بعدها بهینهسازهای تکانه و نرخ یادگیری تطبیقی به رویههای استاندارد آموزش تبدیل شدند، و پرداختن به گرادیانهای ناپدیدشونده برای آموزش شبکههای عمیق و بازگشتی کلیدی بود.
Key figures
- David Rumelhart
- Geoffrey Hinton
- Ronald Williams
- Paul Werbos
Related topics
Seminal works
- rumelhart1986
- goodfellow2016
- bishop2006
Frequently asked questions
- پسانتشار دقیقاً چه چیزی را محاسبه میکند؟
- این الگوریتم گرادیان تابع زیان را نسبت به هر وزن محاسبه میکند، یعنی اینکه هر وزن چقدر باید تغییر کند تا خطا کاهش یابد. این کار را به طور کارآمد با انتشار سیگنالهای خطا به عقب از لایه خروجی به لایه ورودی با استفاده از قاعده زنجیرهای انجام میدهد.
- چرا به جای تمام دادهها به یکباره، بر روی دستههای کوچک آموزش میدهیم؟
- استفاده از کل مجموعه داده برای هر بهروزرسانی گران و غیرضروری است. نزول گرادیان تصادفی دستهای کوچک، گرادیان را از یک نمونه تصادفی کوچک تخمین میزند، که هر گام را ارزان میکند، امکان بهروزرسانیهای بسیار بیشتری را فراهم میآورد، و نویزی را اضافه میکند که میتواند به فرار از راهحلهای نامناسب کمک کند.