Machine learningDeep learning / NLP / CV

Red Neuronal Recurrente Multimodal

Una Red Neuronal Recurrente Multimodal combina entradas de dos o más modalidades de datos —como imágenes, texto y audio— dentro de un marco de procesamiento de secuencias recurrentes. Codifica cada modalidad por separado, fusiona las representaciones y luego procesa la señal combinada a través de unidades recurrentes (RNN, LSTM o GRU) para generar o clasificar salidas secuenciales. Este diseño la convirtió en un enfoque fundamental en la generación de descripciones de imágenes, la descripción de videos y el reconocimiento de voz audiovisual.

Abrir en MethodMindPróximamenteVídeoPróximamenteDownload slides

Leer el método completo

Solo para miembros

Inicia sesión con una cuenta gratuita para leer esta sección.

Iniciar sesión

Method map

The neighbourhood of related methods — select a node to explore.

Fuentes

  1. Vinyals, O., Toshev, A., Bengio, S., & Erhan, D. (2015). Show and Tell: A Neural Image Caption Generator. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 3156–3164. DOI: 10.1109/CVPR.2015.7298935
  2. Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., & Ng, A. Y. (2011). Multimodal Deep Learning. Proceedings of the 28th International Conference on Machine Learning (ICML), pp. 689–696. link

Cómo citar esta página

ScholarGate. (2026, June 3). Multimodal Recurrent Neural Network (MM-RNN). ScholarGate. https://scholargate.app/es/deep-learning/multimodal-recurrent-neural-network

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Citado por

ScholarGateMultimodal Recurrent Neural Network (Multimodal Recurrent Neural Network (MM-RNN)). Recuperado el 2026-06-15 de https://scholargate.app/es/deep-learning/multimodal-recurrent-neural-network · Conjunto de datos: https://doi.org/10.5281/zenodo.20539026