Что такое функция активации и зачем она нужна?

Функция активации применяет нелинейное преобразование к взвешенной сумме входов нейрона. Без нее наложение слоев приводило бы только к другой линейной функции, поэтому нелинейность позволяет глубоким сетям представлять сложные, нелинейные отношения.

Если один широкий слой может аппроксимировать любую функцию, зачем углубляться?

Универсальная аппроксимация утверждает, что неглубокая сеть в принципе может аппроксимировать любую функцию, но для этого может потребоваться непрактично много нейронов. Глубокие сети часто представляют те же функции гораздо более компактно и изучают полезные иерархические признаки, поэтому на практике предпочтение отдается глубине.

Архитектуры нейронных сетей

Архитектуры нейронных сетей определяют, как искусственные нейроны соединяются в слои, задавая семейство функций, которые сеть может представлять.

Найти тему в PaperMindСкороFind papers & topics

Tools & resources

Скачать слайды

Learn & explore

ВидеоСкоро

Definition

Архитектура нейронной сети — это расположение искусственных нейронов в соединенные слои, где каждый нейрон вычисляет нелинейную функцию взвешенной суммы своих входов; архитектура определяет емкость сети и индуктивные смещения, которые она вносит в задачу обучения.

Scope

Эта тема охватывает строительные блоки и структуры нейронных сетей: искусственный нейрон со взвешенными входами и нелинейной активацией, полносвязные прямые слои и многослойный перцептрон, функции активации, такие как сигмоида и выпрямленные линейные блоки, а также то, как глубина, ширина и связность формируют то, что сеть может изучать. Вводится свойство универсальной аппроксимации и роль выбора архитектуры.

Core questions

Как искусственный нейрон вычисляет свой выход?
Что может представлять многослойная сеть, чего не может однослойная?
Как функции активации влияют на обучение?
Как глубина и ширина влияют на компромисс между емкостью и обучаемостью?

Key theories

Универсальная аппроксимация: Прямая сеть с одним достаточно широким скрытым слоем может аппроксимировать любую непрерывную функцию в ограниченной области, что устанавливает нейронные сети как гибкие аппроксиматоры функций.
Функции активации и нелинейность: Нелинейные активации придают многослойным сетям их мощность; выпрямленные линейные блоки, в частности, облегчают поток градиента и стали выбором по умолчанию для глубоких сетей.
Глубина как композиция: Добавление слоев компонует преобразования, так что сеть строит все более абстрактные признаки, часто представляя сложные функции более эффективно, чем один широкий слой.

Clinical relevance

Выбор архитектуры является основным способом включения предварительных знаний о проблеме в глубокую модель, от полносвязных сетей для общих данных до специализированных структур для изображений и последовательностей; понимание искусственного нейрона и свойства универсальной аппроксимации проясняет как возможности, так и ограничения нейронных сетей.

History

Искусственный нейрон восходит к работам Мак-Каллока и Питтса, а также к перцептрону Розенблатта. Критика Минского и Паперта однослойных сетей замедлила развитие области до тех пор, пока многослойные сети и обратное распространение ошибки не возродили ее, а эра глубокого обучения принесла архитектуры из десятков или сотен слоев, построенных из выпрямленных линейных блоков и других компонентов.

Key figures

Frank Rosenblatt
Geoffrey Hinton
Yann LeCun

Seminal works

goodfellow2016
bishop2006
lecun2015

Frequently asked questions

Что такое функция активации и зачем она нужна?: Функция активации применяет нелинейное преобразование к взвешенной сумме входов нейрона. Без нее наложение слоев приводило бы только к другой линейной функции, поэтому нелинейность позволяет глубоким сетям представлять сложные, нелинейные отношения.
Если один широкий слой может аппроксимировать любую функцию, зачем углубляться?: Универсальная аппроксимация утверждает, что неглубокая сеть в принципе может аппроксимировать любую функцию, но для этого может потребоваться непрактично много нейронов. Глубокие сети часто представляют те же функции гораздо более компактно и изучают полезные иерархические признаки, поэтому на практике предпочтение отдается глубине.