ScholarGate
Asistente
Machine learningDeep learning / NLP / CV

Vision Transformer multilingüe

El Vision Transformer multilingüe (Multilingual ViT) extiende la arquitectura Vision Transformer para operar en múltiples idiomas, permitiendo la comprensión de imágenes y el razonamiento imagen-texto en entornos multilingües o translingües. Combina la codificación de imágenes basada en parches con representaciones de texto multilingües, lo que permite que un único modelo sirva a diversas comunidades lingüísticas para tareas como la generación de leyendas de imágenes, la respuesta a preguntas visuales y la recuperación de imágenes translingüe.

Abrir en MethodMindPróximamenteVídeoPróximamenteDescargar diapositivas

Leer el método completo

Solo para miembros

Inicia sesión con una cuenta gratuita para leer esta sección.

Iniciar sesión

Mapa de métodos

El vecindario de métodos relacionados: selecciona un nodo para explorarlo.

Fuentes

  1. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. International Conference on Learning Representations (ICLR 2021). link
  2. Bugliarello, E., Liu, F., Pfeiffer, J., Reddy, S., Elliott, D., Erdem, E., Erdem, A., & Lukasiewicz, T. (2022). IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages. International Conference on Machine Learning (ICML 2022). link

Cómo citar esta página

ScholarGate. (2026, June 3). Multilingual Vision Transformer (Multilingual ViT). ScholarGate. https://scholargate.app/es/deep-learning/multilingual-vision-transformer

¿Qué método?

Coloca este método junto a sus parientes más cercanos y léelos lado a lado: la biblioteca pone los libros sobre la mesa; la elección es tuya.

Comparar lado a lado

Citado por

ScholarGateMultilingual vision transformer (Multilingual Vision Transformer (Multilingual ViT)). Recuperado el 2026-06-15 de https://scholargate.app/es/deep-learning/multilingual-vision-transformer · Conjunto de datos: https://doi.org/10.5281/zenodo.20539026