ScholarGate
Asistent
Machine learningDeep learning / NLP / CV

Multilingual Vision Transformer (Multilingual ViT)

Štandardný Vision Transformer rozdeľuje obraz na záplaty (patches) pevnej veľkosti a spracúva ich ako tokeny pomocou Transformer enkodéra — rovnakého mechanizmu, aký sa používa v BERT pre text. Multilingválna varianta spája toto vizuálne kódovanie s multilingválnym textovým enkodérom trénovaným súčasne na desiatkach jazykov. Kľúčovým poznatkom je, že vizuálne príznaky sú do značnej miery jazykovo agnostické, takže zdieľaný obrazový „tower“ (blok) môže byť zosúladený s multilingválnymi textovými reprezentáciami naučenými z multilingválnych korpusov. To umožňuje modelu trénovanému na pároch obraz-titulok v angličtine generalizovať na francúzske, nemecké alebo čínske dopyty bez potreby opätovného trénovania od začiatku.

Otvoriť v MethodMindČoskoroVideoČoskoroDownload slides

Prečítať celú metódu

Len pre členov

Ak si chcete prečítať túto sekciu, prihláste sa s bezplatným účtom.

Prihlásiť sa

Method map

The neighbourhood of related methods — select a node to explore.

Zdroje

  1. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. International Conference on Learning Representations (ICLR 2021). link
  2. Bugliarello, E., Liu, F., Pfeiffer, J., Reddy, S., Elliott, D., Erdem, E., Erdem, A., & Lukasiewicz, T. (2022). IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages. International Conference on Machine Learning (ICML 2022). link

Ako citovať túto stránku

ScholarGate. (2026, June 3). Multilingual Vision Transformer (Multilingual ViT). ScholarGate. https://scholargate.app/sk/deep-learning/multilingual-vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Odkazujú sem

ScholarGateMultilingual vision transformer (Multilingual Vision Transformer (Multilingual ViT)). Získané 2026-06-15 z https://scholargate.app/sk/deep-learning/multilingual-vision-transformer · Dátová sada: https://doi.org/10.5281/zenodo.20539026