معماری شبکههای عصبی
معماری شبکههای عصبی نحوه اتصال نورونهای مصنوعی به لایهها را مشخص میکند و خانواده توابعی را که یک شبکه میتواند نمایش دهد، تعریف میکند.
Definition
معماری شبکه عصبی، آرایش نورونهای مصنوعی در لایههای متصل است، که در آن هر نورون یک تابع غیرخطی از مجموع وزندار ورودیهای خود را محاسبه میکند؛ معماری، ظرفیت شبکه و سوگیریهای استقرایی (inductive biases) را که به یک مسئله یادگیری میآورد، تعیین میکند.
Scope
این موضوع شامل بلوکهای سازنده و ساختارهای شبکههای عصبی است: نورون مصنوعی با ورودیهای وزندار و یک فعالسازی غیرخطی، لایههای پیشخور کاملاً متصل و پرسپترون چندلایه، توابع فعالسازی مانند سیگموئید و واحدهای خطی یکسوساز، و اینکه چگونه عمق، عرض و اتصال، آنچه را که یک شبکه میتواند یاد بگیرد، شکل میدهند. این موضوع خاصیت تقریب جهانی و نقش انتخاب معماری را معرفی میکند.
Core questions
- یک نورون مصنوعی چگونه خروجی خود را محاسبه میکند؟
- یک شبکه چندلایه چه چیزی را میتواند نمایش دهد که یک لایه واحد نمیتواند؟
- توابع فعالسازی چگونه بر یادگیری تأثیر میگذارند؟
- عمق و عرض چگونه ظرفیت را در برابر قابلیت آموزشپذیری مبادله میکنند؟
Key theories
- تقریب جهانی
- یک شبکه پیشخور با یک لایه پنهان به اندازه کافی گسترده میتواند هر تابع پیوسته را در یک دامنه محدود تقریب بزند و شبکههای عصبی را به عنوان تقریبگرهای تابع انعطافپذیر تثبیت میکند.
- توابع فعالسازی و غیرخطی بودن
- فعالسازیهای غیرخطی همان چیزی است که به شبکههای چندلایه قدرت میبخشد؛ به ویژه واحدهای خطی یکسوساز، جریان گرادیان را تسهیل میکنند و به انتخاب پیشفرض برای شبکههای عمیق تبدیل شدهاند.
- عمق به عنوان ترکیب
- افزودن لایهها، تبدیلها را ترکیب میکند تا شبکه ویژگیهای انتزاعی فزایندهای را بسازد، که اغلب توابع پیچیده را کارآمدتر از یک لایه گسترده واحد نمایش میدهد.
Clinical relevance
انتخاب معماری، روش اصلی برای گنجاندن دانش قبلی در مورد یک مسئله در یک مدل عمیق است، از شبکههای کاملاً متصل برای دادههای عمومی گرفته تا ساختارهای تخصصی برای تصاویر و توالیها؛ درک نورون مصنوعی و خاصیت تقریب جهانی، هم قدرت و هم محدودیتهای شبکههای عصبی را روشن میکند.
History
نورون مصنوعی به کارهای مککالک و پیتس و پرسپترون روزنبلات بازمیگردد. انتقاد مینسک و پاپرت از شبکههای تکلایه، این حوزه را تا زمانی که شبکههای چندلایه و پسانتشار (backpropagation) آن را احیا کردند، کند کرد و دوران یادگیری عمیق، معماریهایی با دهها یا صدها لایه ساخته شده از واحدهای خطی یکسوساز و سایر اجزا را به ارمغان آورد.
Key figures
- Frank Rosenblatt
- Geoffrey Hinton
- Yann LeCun
Related topics
Seminal works
- goodfellow2016
- bishop2006
- lecun2015
Frequently asked questions
- تابع فعالسازی چیست و چرا به آن نیاز است؟
- یک تابع فعالسازی یک تبدیل غیرخطی را به مجموع ورودی وزندار یک نورون اعمال میکند. بدون آن، انباشت لایهها تنها یک تابع خطی دیگر تولید میکند، بنابراین غیرخطی بودن همان چیزی است که به شبکههای عمیق اجازه میدهد روابط پیچیده و غیرخطی را نمایش دهند.
- اگر یک لایه گسترده میتواند هر تابعی را تقریب بزند، چرا باید عمیق شد؟
- تقریب جهانی میگوید که یک شبکه کمعمق میتواند اصولاً هر تابعی را برازش دهد، اما ممکن است به تعداد نورونهای غیرعملی نیاز داشته باشد. شبکههای عمیق اغلب همان توابع را به طور فشردهتر نمایش میدهند و ویژگیهای سلسلهمراتبی مفیدی را یاد میگیرند، به همین دلیل عمق در عمل ترجیح داده میشود.