ScholarGate
Asistente
Machine learningDeep learning / NLP / CV

Transformador Multimodal

Un Transformador Multimodal extiende la arquitectura estándar del Transformador para procesar y razonar conjuntamente sobre dos o más modalidades de entrada —más comúnmente texto e imágenes, pero también audio, video o datos estructurados. Las capas de atención intermodal permiten que la información de una modalidad informe las representaciones en otra, posibilitando tareas como la respuesta visual a preguntas, la subtitulación de imágenes y el análisis de sentimientos multimodal.

Abrir en MethodMindPróximamenteVídeoPróximamenteDownload slides

Leer el método completo

Solo para miembros

Inicia sesión con una cuenta gratuita para leer esta sección.

Iniciar sesión

Method map

The neighbourhood of related methods — select a node to explore.

+15 more

Fuentes

  1. Lu, J., Batra, D., Parikh, D., & Lee, S. (2019). ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks. Advances in Neural Information Processing Systems (NeurIPS), 32. link
  2. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139. link

Cómo citar esta página

ScholarGate. (2026, June 3). Multimodal Transformer (Cross-Modal Attention-Based Architecture). ScholarGate. https://scholargate.app/es/deep-learning/multimodal-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Citado por

ScholarGateMultimodal Transformer (Multimodal Transformer (Cross-Modal Attention-Based Architecture)). Recuperado el 2026-06-15 de https://scholargate.app/es/deep-learning/multimodal-transformer · Conjunto de datos: https://doi.org/10.5281/zenodo.20539026