ScholarGate
دستیار

پس‌انتشار و بهینه‌سازی

پس‌انتشار به طور کارآمد گرادیان تابع زیان یک شبکه را نسبت به وزن‌های آن محاسبه می‌کند و بهینه‌سازهای مبتنی بر گرادیان از این گرادیان برای آموزش شبکه استفاده می‌کنند.

یافتن موضوع با PaperMindبه‌زودیFind papers & topics
Tools & resources
دریافت اسلایدها
Learn & explore
ویدیوبه‌زودی

Definition

پس‌انتشار الگوریتمی است که گرادیان یک تابع زیان را نسبت به هر وزن در یک شبکه عصبی با انتشار سیگنال‌های خطا به عقب از طریق لایه‌ها با استفاده از قاعده زنجیره‌ای محاسبه می‌کند؛ سپس بهینه‌سازی، وزن‌ها را، معمولاً با نزول گرادیان تصادفی، برای کاهش زیان به‌روزرسانی می‌کند.

Scope

این موضوع به نحوه آموزش شبکه‌های عمیق می‌پردازد: الگوریتم پس‌انتشار به عنوان کاربردی از قاعده زنجیره‌ای برای محاسبه گرادیان‌ها لایه به لایه، نزول گرادیان تصادفی و شکل دسته‌ای کوچک آن، روش‌های تکانه و نرخ یادگیری تطبیقی، و چالش‌های عملی گرادیان‌های ناپدیدشونده و منفجرشونده، انتخاب نرخ یادگیری، و همگرایی در سطوح زیان غیرمحدب.

Core questions

  • پس‌انتشار چگونه گرادیان‌ها را به طور کارآمد محاسبه می‌کند؟
  • چرا نزول گرادیان تصادفی برای مجموعه داده‌های بزرگ ترجیح داده می‌شود؟
  • چگونه روش‌های تکانه و تطبیقی آموزش را تسریع می‌کنند؟
  • چه چیزی باعث گرادیان‌های ناپدیدشونده یا منفجرشونده می‌شود و چگونه می‌توان آن‌ها را کاهش داد؟

Key theories

پس‌انتشار از طریق قاعده زنجیره‌ای
با اعمال قاعده زنجیره‌ای از خروجی به عقب، الگوریتم از نتایج میانی مجدداً استفاده می‌کند تا تمام گرادیان‌های وزن را در زمانی متناسب با گذر رو به جلو محاسبه کند، که آموزش شبکه‌های بزرگ را امکان‌پذیر می‌سازد.
نزول گرادیان تصادفی
تخمین گرادیان از دسته‌های تصادفی کوچک، هر به‌روزرسانی را ارزان می‌کند و نویز مفیدی را معرفی می‌کند که آموزش بر روی مجموعه داده‌های بسیار بزرگ را ممکن می‌سازد و اغلب تعمیم‌پذیری را بهبود می‌بخشد.
روش‌های تطبیقی و تکانه
تکانه گرادیان‌های گذشته را برای هموار کردن نزول انباشته می‌کند، و روش‌های تطبیقی اندازه گام را برای هر پارامتر مقیاس‌بندی می‌کنند، که هر دو همگرایی را در سطوح زیان بدحالت که در شبکه‌های عمیق رایج است، سرعت می‌بخشند.

Clinical relevance

پس‌انتشار با نزول گرادیان تصادفی موتور محرک تقریباً تمام یادگیری عمیق مدرن است؛ درک چگونگی جریان گرادیان‌ها هم توضیح می‌دهد که چرا آموزش شبکه‌های عمیق در گذشته دشوار بود و هم اینکه چگونه نوآوری‌ها در فعال‌سازی‌ها، مقداردهی اولیه، و بهینه‌سازها شبکه‌های بسیار عمیق را عملی ساختند.

History

پس‌انتشار در چندین زمینه، از جمله پایان‌نامه وربوس در سال ۱۹۷۴، استخراج شد و توسط روملهارت، هینتون و ویلیامز در سال ۱۹۸۶ به شهرت رسید. نزول گرادیان تصادفی و بعدها بهینه‌سازهای تکانه و نرخ یادگیری تطبیقی به رویه‌های استاندارد آموزش تبدیل شدند، و پرداختن به گرادیان‌های ناپدیدشونده برای آموزش شبکه‌های عمیق و بازگشتی کلیدی بود.

Key figures

  • David Rumelhart
  • Geoffrey Hinton
  • Ronald Williams
  • Paul Werbos

Related topics

Seminal works

  • rumelhart1986
  • goodfellow2016
  • bishop2006

Frequently asked questions

پس‌انتشار دقیقاً چه چیزی را محاسبه می‌کند؟
این الگوریتم گرادیان تابع زیان را نسبت به هر وزن محاسبه می‌کند، یعنی اینکه هر وزن چقدر باید تغییر کند تا خطا کاهش یابد. این کار را به طور کارآمد با انتشار سیگنال‌های خطا به عقب از لایه خروجی به لایه ورودی با استفاده از قاعده زنجیره‌ای انجام می‌دهد.
چرا به جای تمام داده‌ها به یکباره، بر روی دسته‌های کوچک آموزش می‌دهیم؟
استفاده از کل مجموعه داده برای هر به‌روزرسانی گران و غیرضروری است. نزول گرادیان تصادفی دسته‌ای کوچک، گرادیان را از یک نمونه تصادفی کوچک تخمین می‌زند، که هر گام را ارزان می‌کند، امکان به‌روزرسانی‌های بسیار بیشتری را فراهم می‌آورد، و نویزی را اضافه می‌کند که می‌تواند به فرار از راه‌حل‌های نامناسب کمک کند.

Methods for this concept

Related concepts