Machine learningDeep learning / NLP / CV

Vision Transformer multilingüe

El Vision Transformer multilingüe (Multilingual ViT) extiende la arquitectura Vision Transformer para operar en múltiples idiomas, permitiendo la comprensión de imágenes y el razonamiento imagen-texto en entornos multilingües o translingües. Combina la codificación de imágenes basada en parches con representaciones de texto multilingües, lo que permite que un único modelo sirva a diversas comunidades lingüísticas para tareas como la generación de leyendas de imágenes, la respuesta a preguntas visuales y la recuperación de imágenes translingüe.

Abrir en MethodMindPróximamenteVídeoPróximamenteDescargar diapositivas

Leer el método completo

Solo para miembros

Inicia sesión con una cuenta gratuita para leer esta sección.

Iniciar sesión

Mapa de métodos

El vecindario de métodos relacionados: selecciona un nodo para explorarlo.

Vision Transformer multilingüe

Clasificación multilingü…Incrustaciones de oracio…Multimodal Vision Transf…Vision Transformer Clasificación multilingü…

Fuentes

Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. International Conference on Learning Representations (ICLR 2021). link ↗
Bugliarello, E., Liu, F., Pfeiffer, J., Reddy, S., Elliott, D., Erdem, E., Erdem, A., & Lukasiewicz, T. (2022). IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages. International Conference on Machine Learning (ICML 2022). link ↗

Cómo citar esta página

ScholarGate. (2026, June 3). Multilingual Vision Transformer (Multilingual ViT). ScholarGate. https://scholargate.app/es/deep-learning/multilingual-vision-transformer

¿Qué método?

Coloca este método junto a sus parientes más cercanos y léelos lado a lado: la biblioteca pone los libros sobre la mesa; la elección es tuya.

Clasificación multilingüe basada en RoBERTaAprendizaje profundo↔ comparar
Incrustaciones de oraciones multilingüesAprendizaje profundo↔ comparar
Multimodal Vision TransformerAprendizaje profundo↔ comparar
Vision TransformerAprendizaje profundo↔ comparar

Comparar lado a lado →

Citado por

Clasificación multilingüe de imágenes

¿Has visto un problema en esta página? Infórmanos o sugiere una corrección →