¿Por qué las redes convolucionales son tan buenas con las imágenes?

Las imágenes tienen una estructura local y patrones que pueden aparecer en cualquier lugar. La convolución aplica el mismo filtro a toda la imagen, por lo que una característica como un borde se detecta dondequiera que ocurra, utilizando muchos menos parámetros que una capa totalmente conectada y generalizando mejor.

¿Qué problema resuelve la memoria a largo corto plazo?

Las redes recurrentes simples tienen dificultades para aprender dependencias que abarcan muchos pasos de tiempo porque los gradientes desaparecen. La memoria a largo corto plazo introduce una celda de memoria con puertas que preserva la información durante largos intervalos, lo que hace posible aprender patrones temporales de largo alcance.

Modelos convolucionales y de secuencia

Las redes convolucionales explotan la estructura espacial en datos tipo cuadrícula, como las imágenes, mientras que los modelos recurrentes y basados en atención procesan secuencias como texto y voz.

Encontrar tema con PaperMindPróximamenteFind papers & topics

Tools & resources

Descargar diapositivas

Learn & explore

VídeoPróximamente

Definition

Los modelos convolucionales aplican filtros aprendidos a través de una cuadrícula de modo que el mismo detector de características se reutiliza en cada ubicación, mientras que los modelos de secuencia procesan entradas ordenadas manteniendo el estado a lo largo del tiempo o atendiendo a través de posiciones, codificando cada arquitectura suposiciones previas adecuadas a su tipo de datos.

Scope

Este tema abarca arquitecturas especializadas en datos estructurados: redes neuronales convolucionales con filtros locales, compartición de pesos y agrupamiento para imágenes y otras cuadrículas; redes recurrentes y unidades de memoria a largo corto plazo para secuencias con dependencias de largo alcance; y mecanismos de atención que modelan relaciones entre posiciones. Aborda los sesgos inductivos que hacen que estas arquitecturas sean efectivas.

Core questions

¿Cómo explota la convolución la estructura de traslación en las imágenes?
¿Por qué la compartición de pesos y el agrupamiento ayudan a la generalización y la eficiencia?
¿Cómo manejan las unidades recurrentes y de memoria a largo corto plazo las secuencias largas?
¿Qué añade la atención sobre el procesamiento puramente recurrente?

Key theories

Convolución y compartición de pesos: Las capas convolucionales aplican el mismo filtro pequeño en todas las posiciones, reduciendo drásticamente los parámetros y construyendo una equivariancia de traslación para que las características aprendidas en una ubicación se transfieran a todas partes.
Memoria a largo corto plazo: Las unidades recurrentes con puertas, como la memoria a largo corto plazo, mantienen una celda de memoria protegida, permitiendo que las redes recurrentes aprendan dependencias a través de muchos pasos de tiempo que la recurrencia simple no puede.
Atención sobre secuencias: Los mecanismos de atención permiten que un modelo pondere y combine información de todas las posiciones de una secuencia directamente, capturando relaciones de largo alcance y permitiendo un procesamiento de secuencias altamente paralelo.

Clinical relevance

Las redes convolucionales revolucionaron la visión por computadora y la imagen médica, mientras que los modelos de secuencia impulsaron el reconocimiento de voz y la traducción automática y, a través de la atención, los grandes modelos de lenguaje detrás de los sistemas modernos de procesamiento del lenguaje natural; la correspondencia entre la arquitectura y la estructura de los datos sigue siendo un principio de diseño central en el aprendizaje profundo aplicado.

History

Las redes convolucionales surgieron del neocognitrón de Fukushima y del trabajo de LeCun sobre el reconocimiento de dígitos, y su éxito en 2012 en la clasificación de imágenes a gran escala encendió el auge del aprendizaje profundo. La memoria a largo corto plazo, introducida en 1997, resolvió el problema de la dependencia de largo alcance para las secuencias, y los mecanismos de atención se convirtieron más tarde en la base de los modelos transformadores.

Key figures

Yann LeCun
Sepp Hochreiter
Juergen Schmidhuber
Kunihiko Fukushima

Seminal works

hochreiter1997
lecun2015
goodfellow2016

Frequently asked questions

¿Por qué las redes convolucionales son tan buenas con las imágenes?: Las imágenes tienen una estructura local y patrones que pueden aparecer en cualquier lugar. La convolución aplica el mismo filtro a toda la imagen, por lo que una característica como un borde se detecta dondequiera que ocurra, utilizando muchos menos parámetros que una capa totalmente conectada y generalizando mejor.
¿Qué problema resuelve la memoria a largo corto plazo?: Las redes recurrentes simples tienen dificultades para aprender dependencias que abarcan muchos pasos de tiempo porque los gradientes desaparecen. La memoria a largo corto plazo introduce una celda de memoria con puertas que preserva la información durante largos intervalos, lo que hace posible aprender patrones temporales de largo alcance.