Machine learningDeep learning / NLP / CV

Vision Transformer multilingv (Multilingual ViT)

Vision Transformer multilingv (Multilingual ViT) extinde arhitectura Vision Transformer pentru a opera în mai multe limbi, permițând înțelegerea imaginilor și raționamentul imagine-text în contexte multilingve sau translingve. Combină codificarea imaginilor bazată pe patch-uri cu reprezentări textuale multilingve, permițând unui singur model să deservească diverse comunități lingvistice pentru sarcini precum generarea de legende pentru imagini, răspunsul la întrebări vizuale și recuperarea de imagini translingve.

Deschide în MethodMindÎn curândVideoÎn curândDownload slides

Citește metoda completă

Doar pentru membri

Autentifică-te cu un cont gratuit pentru a citi această secțiune.

Autentificare

Method map

The neighbourhood of related methods — select a node to explore.

Surse

  1. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. International Conference on Learning Representations (ICLR 2021). link
  2. Bugliarello, E., Liu, F., Pfeiffer, J., Reddy, S., Elliott, D., Erdem, E., Erdem, A., & Lukasiewicz, T. (2022). IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages. International Conference on Machine Learning (ICML 2022). link

Cum se citează această pagină

ScholarGate. (2026, June 3). Multilingual Vision Transformer (Multilingual ViT). ScholarGate. https://scholargate.app/ro/deep-learning/multilingual-vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Citat de

ScholarGateMultilingual vision transformer (Multilingual Vision Transformer (Multilingual ViT)). Preluat la 2026-06-15 de pe https://scholargate.app/ro/deep-learning/multilingual-vision-transformer · Set de date: https://doi.org/10.5281/zenodo.20539026