Machine learningDeep learning / NLP / CV

Transformador Multimodal

Un Transformador Multimodal extiende la arquitectura estándar del Transformador para procesar y razonar conjuntamente sobre dos o más modalidades de entrada —más comúnmente texto e imágenes, pero también audio, video o datos estructurados. Las capas de atención intermodal permiten que la información de una modalidad informe las representaciones en otra, posibilitando tareas como la respuesta visual a preguntas, la subtitulación de imágenes y el análisis de sentimientos multimodal.

Abrir en MethodMindPróximamenteVídeoPróximamenteDownload slides

Leer el método completo

Solo para miembros

Inicia sesión con una cuenta gratuita para leer esta sección.

Iniciar sesión

Method map

The neighbourhood of related methods — select a node to explore.

Transformador Multimodal

Clasificación basada en…Clasificación de imágenes Clasificación multimodal…Incrutaciones de oracion…Vision Transformer Transformador Explicable Red Neuronal Convolucion…Modelo de Difusión Multi…Multimodal Doc2Vec GAN multimodal

+15 more

Fuentes

Lu, J., Batra, D., Parikh, D., & Lee, S. (2019). ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks. Advances in Neural Information Processing Systems (NeurIPS), 32. link ↗
Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139. link ↗

Cómo citar esta página

ScholarGate. (2026, June 3). Multimodal Transformer (Cross-Modal Attention-Based Architecture). ScholarGate. https://scholargate.app/es/deep-learning/multimodal-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Clasificación basada en BERTAprendizaje profundo↔ compare
Clasificación de imágenesAprendizaje profundo↔ compare
Clasificación multimodal basada en BERTAprendizaje profundo↔ compare
Incrutaciones de oracionesAprendizaje profundo↔ compare
Vision TransformerAprendizaje profundo↔ compare

Compare side by side →

¿Has visto un problema en esta página? Infórmanos o sugiere una corrección →

Leer el método completo

Method map

Fuentes

Cómo citar esta página

Métodos relacionados

Which method?

Citado por