ScholarGate
Pembantu
Machine learningDeep learning / NLP / CV

Vision Transformer Pelbagai Bahasa

Vision Transformer Pelbagai Bahasa (Multilingual ViT) meluaskan seni bina Vision Transformer untuk beroperasi merentasi pelbagai bahasa, membolehkan pemahaman imej dan penaakulan imej-teks dalam tetapan pelbagai bahasa atau rentas bahasa. Ia menggabungkan pengekodan imej berasaskan tampalan dengan perwakilan teks pelbagai bahasa, membolehkan satu model melayani komuniti linguistik yang pelbagai untuk tugasan seperti penggambaran imej, menjawab soalan visual, dan dapatan semula imej rentas bahasa.

Buka dalam MethodMindTidak lama lagiVideoTidak lama lagiMuat turun slaid

Baca kaedah sepenuhnya

Ahli sahaja

Log masuk dengan akaun percuma untuk membaca bahagian ini.

Log masuk

Peta kaedah

Kejiranan kaedah berkaitan — pilih satu nod untuk meneroka.

Sumber

  1. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. International Conference on Learning Representations (ICLR 2021). link
  2. Bugliarello, E., Liu, F., Pfeiffer, J., Reddy, S., Elliott, D., Erdem, E., Erdem, A., & Lukasiewicz, T. (2022). IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages. International Conference on Machine Learning (ICML 2022). link

Cara memetik halaman ini

ScholarGate. (2026, June 3). Multilingual Vision Transformer (Multilingual ViT). ScholarGate. https://scholargate.app/ms/deep-learning/multilingual-vision-transformer

Kaedah yang mana?

Letakkan kaedah ini di sebelah kaedah yang paling rapat dengannya dan baca secara bersebelahan — perpustakaan menyusun buku di atas meja; pilihan terletak pada anda.

Bandingkan secara bersebelahan

Dirujuk oleh

ScholarGateMultilingual vision transformer (Multilingual Vision Transformer (Multilingual ViT)). Dicapai 2026-06-15 daripada https://scholargate.app/ms/deep-learning/multilingual-vision-transformer · Set data: https://doi.org/10.5281/zenodo.20539026