Machine learningDeep learning / NLP / CV

Vision Transformer Pelbagai Bahasa

Vision Transformer Pelbagai Bahasa (Multilingual ViT) meluaskan seni bina Vision Transformer untuk beroperasi merentasi pelbagai bahasa, membolehkan pemahaman imej dan penaakulan imej-teks dalam tetapan pelbagai bahasa atau rentas bahasa. Ia menggabungkan pengekodan imej berasaskan tampalan dengan perwakilan teks pelbagai bahasa, membolehkan satu model melayani komuniti linguistik yang pelbagai untuk tugasan seperti penggambaran imej, menjawab soalan visual, dan dapatan semula imej rentas bahasa.

Buka dalam MethodMindTidak lama lagiVideoTidak lama lagiMuat turun slaid

Baca kaedah sepenuhnya

Ahli sahaja

Log masuk dengan akaun percuma untuk membaca bahagian ini.

Log masuk

Peta kaedah

Kejiranan kaedah berkaitan — pilih satu nod untuk meneroka.

Vision Transformer Pelbagai Bahasa

Klasifikasi Berasaskan R…Pembenaman Ayat Berbilan…Multimodal Vision Transf…Transformer Visi Klasifikasi Imej Multili…

Sumber

Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. International Conference on Learning Representations (ICLR 2021). link ↗
Bugliarello, E., Liu, F., Pfeiffer, J., Reddy, S., Elliott, D., Erdem, E., Erdem, A., & Lukasiewicz, T. (2022). IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages. International Conference on Machine Learning (ICML 2022). link ↗

Cara memetik halaman ini

ScholarGate. (2026, June 3). Multilingual Vision Transformer (Multilingual ViT). ScholarGate. https://scholargate.app/ms/deep-learning/multilingual-vision-transformer

Kaedah yang mana?

Letakkan kaedah ini di sebelah kaedah yang paling rapat dengannya dan baca secara bersebelahan — perpustakaan menyusun buku di atas meja; pilihan terletak pada anda.

Klasifikasi Berasaskan RoBERTa MultilingualPembelajaran Mendalam↔ banding
Pembenaman Ayat Berbilang BahasaPembelajaran Mendalam↔ banding
Multimodal Vision TransformerPembelajaran Mendalam↔ banding
Transformer VisiPembelajaran Mendalam↔ banding

Bandingkan secara bersebelahan →

Dirujuk oleh

Klasifikasi Imej Multilingual

Terjumpa masalah pada halaman ini? Laporkan atau cadangkan pembetulan →