¿Qué es una función de activación y por qué es necesaria?

Una función de activación aplica una transformación no lineal a la suma ponderada de las entradas de una neurona. Sin ella, apilar capas solo produciría otra función lineal, por lo que la no linealidad es lo que permite a las redes profundas representar relaciones complejas y no lineales.

Si una capa ancha puede aproximar cualquier función, ¿por qué profundizar?

La aproximación universal sugiere que una red superficial puede, en principio, ajustar cualquier función, pero podría necesitar un número imprácticamente grande de neuronas. Las redes profundas a menudo representan las mismas funciones de manera mucho más compacta y aprenden características jerárquicas útiles, razón por la cual se prefiere la profundidad en la práctica.

Arquitecturas de Redes Neuronales

Las arquitecturas de redes neuronales especifican cómo se conectan las neuronas artificiales en capas, definiendo la familia de funciones que una red puede representar.

Definition

Una arquitectura de red neuronal es la disposición de neuronas artificiales en capas conectadas, donde cada neurona calcula una función no lineal de una suma ponderada de sus entradas; la arquitectura determina la capacidad de la red y los sesgos inductivos que aporta a un problema de aprendizaje.

Scope

Este tema abarca los componentes básicos y las estructuras de las redes neuronales: la neurona artificial con entradas ponderadas y una activación no lineal, las capas de avance totalmente conectadas y el perceptrón multicapa, las funciones de activación como las unidades sigmoide y rectificadas lineales, y cómo la profundidad, el ancho y la conectividad dan forma a lo que una red puede aprender. Introduce la propiedad de aproximación universal y el papel de la elección de la arquitectura.

Core questions

¿Cómo calcula una neurona artificial su salida?
¿Qué puede representar una red multicapa que una sola capa no puede?
¿Cómo afectan las funciones de activación al aprendizaje?
¿Cómo se equilibran la capacidad y la entrenabilidad en función de la profundidad y el ancho?

Key theories

Aproximación universal: Una red de avance con una única capa oculta suficientemente ancha puede aproximar cualquier función continua en un dominio acotado, estableciendo las redes neuronales como aproximadores de funciones flexibles.
Funciones de activación y no linealidad: Las activaciones no lineales son lo que confiere poder a las redes multicapa; las unidades lineales rectificadas, en particular, facilitan el flujo de gradiente y se han convertido en la elección predeterminada para las redes profundas.
Profundidad como composición: La adición de capas compone transformaciones, de modo que la red construye características cada vez más abstractas, a menudo representando funciones complejas de manera más eficiente que una única capa ancha.

Clinical relevance

La elección de la arquitectura es la principal forma en que el conocimiento previo sobre un problema se incorpora a un modelo profundo, desde redes totalmente conectadas para datos genéricos hasta estructuras especializadas para imágenes y secuencias; la comprensión de la neurona artificial y la propiedad de aproximación universal aclara tanto el poder como los límites de las redes neuronales.

History

La neurona artificial se remonta a McCulloch y Pitts y al perceptrón de Rosenblatt. La crítica de Minsky y Papert a las redes de una sola capa ralentizó el campo hasta que las redes multicapa y la retropropagación lo revivieron, y la era del aprendizaje profundo trajo arquitecturas de docenas o cientos de capas construidas a partir de unidades rectificadas lineales y otros componentes.

Key figures

Frank Rosenblatt
Geoffrey Hinton
Yann LeCun

Seminal works

goodfellow2016
bishop2006
lecun2015

Frequently asked questions

¿Qué es una función de activación y por qué es necesaria?: Una función de activación aplica una transformación no lineal a la suma ponderada de las entradas de una neurona. Sin ella, apilar capas solo produciría otra función lineal, por lo que la no linealidad es lo que permite a las redes profundas representar relaciones complejas y no lineales.
Si una capa ancha puede aproximar cualquier función, ¿por qué profundizar?: La aproximación universal sugiere que una red superficial puede, en principio, ajustar cualquier función, pero podría necesitar un número imprácticamente grande de neuronas. Las redes profundas a menudo representan las mismas funciones de manera mucho más compacta y aprenden características jerárquicas útiles, razón por la cual se prefiere la profundidad en la práctica.