ScholarGate
Asistente
Machine learningDeep learning / NLP / CV

Red Neuronal Convolucional Multimodal

Una Red Neuronal Convolucional Multimodal (MM-CNN) procesa y fusiona dos o más modalidades de entrada —como imágenes y texto, o vídeo y audio— a través de ramas convolucionales dedicadas, aprendiendo una representación compartida que captura señales complementarias de cada fuente. La representación fusionada impulsa una tarea posterior como clasificación, regresión o recuperación.

Abrir en MethodMindPróximamenteVídeoPróximamenteDescargar diapositivas

Leer el método completo

Solo para miembros

Inicia sesión con una cuenta gratuita para leer esta sección.

Iniciar sesión

Mapa de métodos

El vecindario de métodos relacionados: selecciona un nodo para explorarlo.

Fuentes

  1. Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., & Ng, A. Y. (2011). Multimodal deep learning. In Proceedings of the 28th International Conference on Machine Learning (ICML), 689–696. link
  2. Zhang, Y., Yin, C., Li, Y., Li, D., & Tian, Q. (2020). Multimodal intelligence: Representation learning, information fusion, and applications. IEEE Journal of Selected Topics in Signal Processing, 14(3), 478–493. DOI: 10.1109/JSTSP.2020.2987728

Cómo citar esta página

ScholarGate. (2026, June 3). Multimodal Convolutional Neural Network (MM-CNN). ScholarGate. https://scholargate.app/es/deep-learning/multimodal-convolutional-neural-network

¿Qué método?

Coloca este método junto a sus parientes más cercanos y léelos lado a lado: la biblioteca pone los libros sobre la mesa; la elección es tuya.

Comparar lado a lado

Citado por

ScholarGateMultimodal Convolutional Neural Network (Multimodal Convolutional Neural Network (MM-CNN)). Recuperado el 2026-06-15 de https://scholargate.app/es/deep-learning/multimodal-convolutional-neural-network · Conjunto de datos: https://doi.org/10.5281/zenodo.20539026