Machine learningDeep learning / NLP / CV

Vision Transformer multilingue

Le Vision Transformer multilingue (Multilingual ViT) étend l'architecture Vision Transformer pour fonctionner dans plusieurs langues, permettant la compréhension d'images et le raisonnement image-texte dans des contextes multilingues ou translingues. Il combine un encodage d'image basé sur des patchs avec des représentations textuelles multilingues, permettant à un seul modèle de servir diverses communautés linguistiques pour des tâches telles que le sous-titrage d'images, la réponse visuelle aux questions et la récupération d'images translingue.

Ouvrir dans MethodMindBientôtVidéoBientôtDownload slides

Lire la méthode complète

Réservé aux membres

Connectez-vous avec un compte gratuit pour lire cette section.

Se connecter

Method map

The neighbourhood of related methods — select a node to explore.

Vision Transformer multilingue

Classification basée sur…Plongements de phrases m…Multimodal Vision Transf…Vision Transformer Classification d'images…

Sources

Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. International Conference on Learning Representations (ICLR 2021). link ↗
Bugliarello, E., Liu, F., Pfeiffer, J., Reddy, S., Elliott, D., Erdem, E., Erdem, A., & Lukasiewicz, T. (2022). IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages. International Conference on Machine Learning (ICML 2022). link ↗

Comment citer cette page

ScholarGate. (2026, June 3). Multilingual Vision Transformer (Multilingual ViT). ScholarGate. https://scholargate.app/fr/deep-learning/multilingual-vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Classification basée sur RoBERTa multilingueApprentissage profond↔ compare
Plongements de phrases multilinguesApprentissage profond↔ compare
Multimodal Vision TransformerApprentissage profond↔ compare
Vision TransformerApprentissage profond↔ compare

Compare side by side →

Référencée par

Classification d'images multilingue

Une erreur sur cette page ? Signalez-la ou proposez une correction →