ScholarGate
Asistent
Machine learningDeep learning / NLP / CV

Višejezični vizualni Transformer

Višejezični vizualni Transformer (Multilingual ViT) proširuje arhitekturu vizualnog Transformera za rad s više jezika, omogućujući razumijevanje slika i zaključivanje na temelju slika i teksta u višejezičnim ili unakrsnojezičnim okruženjima. Kombinira kodiranje slike temeljeno na zakrpama s višejezičnim tekstualnim reprezentacijama, omogućujući jednom modelu da služi različitim jezičnim zajednicama za zadatke kao što su opisivanje slika, vizualno odgovaranje na pitanja i unakrsnojezično dohvaćanje slika.

Otvorite u MethodMindUskoroVideoUskoroDownload slides

Pročitajte cijelu metodu

Samo za članove

Prijavite se besplatnim računom kako biste pročitali ovaj odjeljak.

Prijavite se

Method map

The neighbourhood of related methods — select a node to explore.

Izvori

  1. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. International Conference on Learning Representations (ICLR 2021). link
  2. Bugliarello, E., Liu, F., Pfeiffer, J., Reddy, S., Elliott, D., Erdem, E., Erdem, A., & Lukasiewicz, T. (2022). IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages. International Conference on Machine Learning (ICML 2022). link

Kako citirati ovu stranicu

ScholarGate. (2026, June 3). Multilingual Vision Transformer (Multilingual ViT). ScholarGate. https://scholargate.app/hr/deep-learning/multilingual-vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Citirana u

ScholarGateMultilingual vision transformer (Multilingual Vision Transformer (Multilingual ViT)). Preuzeto 2026-06-15 s https://scholargate.app/hr/deep-learning/multilingual-vision-transformer · Skup podataka: https://doi.org/10.5281/zenodo.20539026