Machine learningDeep learning / NLP / CV

Multilingual Vision Transformer (Multilingual ViT)

Štandardný Vision Transformer rozdeľuje obraz na záplaty (patches) pevnej veľkosti a spracúva ich ako tokeny pomocou Transformer enkodéra — rovnakého mechanizmu, aký sa používa v BERT pre text. Multilingválna varianta spája toto vizuálne kódovanie s multilingválnym textovým enkodérom trénovaným súčasne na desiatkach jazykov. Kľúčovým poznatkom je, že vizuálne príznaky sú do značnej miery jazykovo agnostické, takže zdieľaný obrazový „tower“ (blok) môže byť zosúladený s multilingválnymi textovými reprezentáciami naučenými z multilingválnych korpusov. To umožňuje modelu trénovanému na pároch obraz-titulok v angličtine generalizovať na francúzske, nemecké alebo čínske dopyty bez potreby opätovného trénovania od začiatku.

Otvoriť v MethodMindČoskoroVideoČoskoroDownload slides

Prečítať celú metódu

Len pre členov

Ak si chcete prečítať túto sekciu, prihláste sa s bezplatným účtom.

Prihlásiť sa

Method map

The neighbourhood of related methods — select a node to explore.

Multilingual vision transformer

Viacjazyčná klasifikácia…Viacjazykové vnorenia vi…Multimodálny Transformer…Vision Transformer Viacjazyčná klasifikácia…

Zdroje

Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. International Conference on Learning Representations (ICLR 2021). link ↗
Bugliarello, E., Liu, F., Pfeiffer, J., Reddy, S., Elliott, D., Erdem, E., Erdem, A., & Lukasiewicz, T. (2022). IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages. International Conference on Machine Learning (ICML 2022). link ↗

Ako citovať túto stránku

ScholarGate. (2026, June 3). Multilingual Vision Transformer (Multilingual ViT). ScholarGate. https://scholargate.app/sk/deep-learning/multilingual-vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Viacjazyčná klasifikácia na báze RoBERTaHlboké učenie↔ compare
Viacjazykové vnorenia vietHlboké učenie↔ compare
Multimodálny Transformer pre víziuHlboké učenie↔ compare
Vision TransformerHlboké učenie↔ compare

Compare side by side →

Odkazujú sem

Viacjazyčná klasifikácia obrázkov

Našli ste na tejto stránke chybu? Nahláste ju alebo navrhnite opravu →