Modelos convolucionales y de secuencia
Las redes convolucionales explotan la estructura espacial en datos tipo cuadrícula, como las imágenes, mientras que los modelos recurrentes y basados en atención procesan secuencias como texto y voz.
Definition
Los modelos convolucionales aplican filtros aprendidos a través de una cuadrícula de modo que el mismo detector de características se reutiliza en cada ubicación, mientras que los modelos de secuencia procesan entradas ordenadas manteniendo el estado a lo largo del tiempo o atendiendo a través de posiciones, codificando cada arquitectura suposiciones previas adecuadas a su tipo de datos.
Scope
Este tema abarca arquitecturas especializadas en datos estructurados: redes neuronales convolucionales con filtros locales, compartición de pesos y agrupamiento para imágenes y otras cuadrículas; redes recurrentes y unidades de memoria a largo corto plazo para secuencias con dependencias de largo alcance; y mecanismos de atención que modelan relaciones entre posiciones. Aborda los sesgos inductivos que hacen que estas arquitecturas sean efectivas.
Core questions
- ¿Cómo explota la convolución la estructura de traslación en las imágenes?
- ¿Por qué la compartición de pesos y el agrupamiento ayudan a la generalización y la eficiencia?
- ¿Cómo manejan las unidades recurrentes y de memoria a largo corto plazo las secuencias largas?
- ¿Qué añade la atención sobre el procesamiento puramente recurrente?
Key theories
- Convolución y compartición de pesos
- Las capas convolucionales aplican el mismo filtro pequeño en todas las posiciones, reduciendo drásticamente los parámetros y construyendo una equivariancia de traslación para que las características aprendidas en una ubicación se transfieran a todas partes.
- Memoria a largo corto plazo
- Las unidades recurrentes con puertas, como la memoria a largo corto plazo, mantienen una celda de memoria protegida, permitiendo que las redes recurrentes aprendan dependencias a través de muchos pasos de tiempo que la recurrencia simple no puede.
- Atención sobre secuencias
- Los mecanismos de atención permiten que un modelo pondere y combine información de todas las posiciones de una secuencia directamente, capturando relaciones de largo alcance y permitiendo un procesamiento de secuencias altamente paralelo.
Clinical relevance
Las redes convolucionales revolucionaron la visión por computadora y la imagen médica, mientras que los modelos de secuencia impulsaron el reconocimiento de voz y la traducción automática y, a través de la atención, los grandes modelos de lenguaje detrás de los sistemas modernos de procesamiento del lenguaje natural; la correspondencia entre la arquitectura y la estructura de los datos sigue siendo un principio de diseño central en el aprendizaje profundo aplicado.
History
Las redes convolucionales surgieron del neocognitrón de Fukushima y del trabajo de LeCun sobre el reconocimiento de dígitos, y su éxito en 2012 en la clasificación de imágenes a gran escala encendió el auge del aprendizaje profundo. La memoria a largo corto plazo, introducida en 1997, resolvió el problema de la dependencia de largo alcance para las secuencias, y los mecanismos de atención se convirtieron más tarde en la base de los modelos transformadores.
Key figures
- Yann LeCun
- Sepp Hochreiter
- Juergen Schmidhuber
- Kunihiko Fukushima
Related topics
Seminal works
- hochreiter1997
- lecun2015
- goodfellow2016
Frequently asked questions
- ¿Por qué las redes convolucionales son tan buenas con las imágenes?
- Las imágenes tienen una estructura local y patrones que pueden aparecer en cualquier lugar. La convolución aplica el mismo filtro a toda la imagen, por lo que una característica como un borde se detecta dondequiera que ocurra, utilizando muchos menos parámetros que una capa totalmente conectada y generalizando mejor.
- ¿Qué problema resuelve la memoria a largo corto plazo?
- Las redes recurrentes simples tienen dificultades para aprender dependencias que abarcan muchos pasos de tiempo porque los gradientes desaparecen. La memoria a largo corto plazo introduce una celda de memoria con puertas que preserva la información durante largos intervalos, lo que hace posible aprender patrones temporales de largo alcance.