ScholarGate
Assistent
Machine learningDeep learning / NLP / CV

Multilingual Vision Transformer (Multilingual ViT)

En standard Vision Transformer deler et bilde inn i faste lapper (patches) og behandler dem som tokens som prosesseres av en Transformer-enkoder – den samme mekanismen som brukes i BERT for tekst. En flerspråklig variant parer denne visuelle kodingen med en flerspråklig tekstenkoder trent på dusinvis av språk samtidig. Den sentrale innsikten er at visuelle trekk i stor grad er språk-agnostiske, så et delt bilde-tårn kan justeres med flerspråklige tekstlige representasjoner lært fra flerspråklige korpora. Dette gjør at en modell trent på engelske bilde-tekst-par kan generalisere til franske, tyske eller kinesiske spørringer uten omtrening fra bunnen av.

Åpne i MethodMindSnartVideoSnartDownload slides

Les hele metoden

Kun for medlemmer

Logg inn med en gratis konto for å lese denne delen.

Logg inn

Method map

The neighbourhood of related methods — select a node to explore.

Kilder

  1. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. International Conference on Learning Representations (ICLR 2021). link
  2. Bugliarello, E., Liu, F., Pfeiffer, J., Reddy, S., Elliott, D., Erdem, E., Erdem, A., & Lukasiewicz, T. (2022). IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages. International Conference on Machine Learning (ICML 2022). link

Slik siterer du denne siden

ScholarGate. (2026, June 3). Multilingual Vision Transformer (Multilingual ViT). ScholarGate. https://scholargate.app/no/deep-learning/multilingual-vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Referert av

ScholarGateMultilingual vision transformer (Multilingual Vision Transformer (Multilingual ViT)). Hentet 2026-06-15 fra https://scholargate.app/no/deep-learning/multilingual-vision-transformer · Datasett: https://doi.org/10.5281/zenodo.20539026