پسانتشار دقیقاً چه چیزی را محاسبه میکند؟

این الگوریتم گرادیان تابع زیان را نسبت به هر وزن محاسبه میکند، یعنی اینکه هر وزن چقدر باید تغییر کند تا خطا کاهش یابد. این کار را به طور کارآمد با انتشار سیگنالهای خطا به عقب از لایه خروجی به لایه ورودی با استفاده از قاعده زنجیرهای انجام میدهد.

چرا به جای تمام دادهها به یکباره، بر روی دستههای کوچک آموزش میدهیم؟

استفاده از کل مجموعه داده برای هر بهروزرسانی گران و غیرضروری است. نزول گرادیان تصادفی دستهای کوچک، گرادیان را از یک نمونه تصادفی کوچک تخمین میزند، که هر گام را ارزان میکند، امکان بهروزرسانیهای بسیار بیشتری را فراهم میآورد، و نویزی را اضافه میکند که میتواند به فرار از راهحلهای نامناسب کمک کند.

پس‌انتشار و بهینه‌سازی

پس‌انتشار به طور کارآمد گرادیان تابع زیان یک شبکه را نسبت به وزن‌های آن محاسبه می‌کند و بهینه‌سازهای مبتنی بر گرادیان از این گرادیان برای آموزش شبکه استفاده می‌کنند.

یافتن موضوع با PaperMindبه‌زودیFind papers & topics

Tools & resources

دریافت اسلایدها

Learn & explore

ویدیوبه‌زودی

Definition

پس‌انتشار الگوریتمی است که گرادیان یک تابع زیان را نسبت به هر وزن در یک شبکه عصبی با انتشار سیگنال‌های خطا به عقب از طریق لایه‌ها با استفاده از قاعده زنجیره‌ای محاسبه می‌کند؛ سپس بهینه‌سازی، وزن‌ها را، معمولاً با نزول گرادیان تصادفی، برای کاهش زیان به‌روزرسانی می‌کند.

Scope

این موضوع به نحوه آموزش شبکه‌های عمیق می‌پردازد: الگوریتم پس‌انتشار به عنوان کاربردی از قاعده زنجیره‌ای برای محاسبه گرادیان‌ها لایه به لایه، نزول گرادیان تصادفی و شکل دسته‌ای کوچک آن، روش‌های تکانه و نرخ یادگیری تطبیقی، و چالش‌های عملی گرادیان‌های ناپدیدشونده و منفجرشونده، انتخاب نرخ یادگیری، و همگرایی در سطوح زیان غیرمحدب.

Core questions

پس‌انتشار چگونه گرادیان‌ها را به طور کارآمد محاسبه می‌کند؟
چرا نزول گرادیان تصادفی برای مجموعه داده‌های بزرگ ترجیح داده می‌شود؟
چگونه روش‌های تکانه و تطبیقی آموزش را تسریع می‌کنند؟
چه چیزی باعث گرادیان‌های ناپدیدشونده یا منفجرشونده می‌شود و چگونه می‌توان آن‌ها را کاهش داد؟

Key theories

پس‌انتشار از طریق قاعده زنجیره‌ای: با اعمال قاعده زنجیره‌ای از خروجی به عقب، الگوریتم از نتایج میانی مجدداً استفاده می‌کند تا تمام گرادیان‌های وزن را در زمانی متناسب با گذر رو به جلو محاسبه کند، که آموزش شبکه‌های بزرگ را امکان‌پذیر می‌سازد.
نزول گرادیان تصادفی: تخمین گرادیان از دسته‌های تصادفی کوچک، هر به‌روزرسانی را ارزان می‌کند و نویز مفیدی را معرفی می‌کند که آموزش بر روی مجموعه داده‌های بسیار بزرگ را ممکن می‌سازد و اغلب تعمیم‌پذیری را بهبود می‌بخشد.
روش‌های تطبیقی و تکانه: تکانه گرادیان‌های گذشته را برای هموار کردن نزول انباشته می‌کند، و روش‌های تطبیقی اندازه گام را برای هر پارامتر مقیاس‌بندی می‌کنند، که هر دو همگرایی را در سطوح زیان بدحالت که در شبکه‌های عمیق رایج است، سرعت می‌بخشند.

Clinical relevance

پس‌انتشار با نزول گرادیان تصادفی موتور محرک تقریباً تمام یادگیری عمیق مدرن است؛ درک چگونگی جریان گرادیان‌ها هم توضیح می‌دهد که چرا آموزش شبکه‌های عمیق در گذشته دشوار بود و هم اینکه چگونه نوآوری‌ها در فعال‌سازی‌ها، مقداردهی اولیه، و بهینه‌سازها شبکه‌های بسیار عمیق را عملی ساختند.

History

پس‌انتشار در چندین زمینه، از جمله پایان‌نامه وربوس در سال ۱۹۷۴، استخراج شد و توسط روملهارت، هینتون و ویلیامز در سال ۱۹۸۶ به شهرت رسید. نزول گرادیان تصادفی و بعدها بهینه‌سازهای تکانه و نرخ یادگیری تطبیقی به رویه‌های استاندارد آموزش تبدیل شدند، و پرداختن به گرادیان‌های ناپدیدشونده برای آموزش شبکه‌های عمیق و بازگشتی کلیدی بود.

Key figures

David Rumelhart
Geoffrey Hinton
Ronald Williams
Paul Werbos

Seminal works

rumelhart1986
goodfellow2016
bishop2006

Frequently asked questions

پس‌انتشار دقیقاً چه چیزی را محاسبه می‌کند؟: این الگوریتم گرادیان تابع زیان را نسبت به هر وزن محاسبه می‌کند، یعنی اینکه هر وزن چقدر باید تغییر کند تا خطا کاهش یابد. این کار را به طور کارآمد با انتشار سیگنال‌های خطا به عقب از لایه خروجی به لایه ورودی با استفاده از قاعده زنجیره‌ای انجام می‌دهد.
چرا به جای تمام داده‌ها به یکباره، بر روی دسته‌های کوچک آموزش می‌دهیم؟: استفاده از کل مجموعه داده برای هر به‌روزرسانی گران و غیرضروری است. نزول گرادیان تصادفی دسته‌ای کوچک، گرادیان را از یک نمونه تصادفی کوچک تخمین می‌زند، که هر گام را ارزان می‌کند، امکان به‌روزرسانی‌های بسیار بیشتری را فراهم می‌آورد، و نویزی را اضافه می‌کند که می‌تواند به فرار از راه‌حل‌های نامناسب کمک کند.