Vision Transformer Pelbagai Bahasa
Vision Transformer Pelbagai Bahasa (Multilingual ViT) meluaskan seni bina Vision Transformer untuk beroperasi merentasi pelbagai bahasa, membolehkan pemahaman imej dan penaakulan imej-teks dalam tetapan pelbagai bahasa atau rentas bahasa. Ia menggabungkan pengekodan imej berasaskan tampalan dengan perwakilan teks pelbagai bahasa, membolehkan satu model melayani komuniti linguistik yang pelbagai untuk tugasan seperti penggambaran imej, menjawab soalan visual, dan dapatan semula imej rentas bahasa.
Baca kaedah sepenuhnya
Log masuk dengan akaun percuma untuk membaca bahagian ini.
Peta kaedah
Kejiranan kaedah berkaitan — pilih satu nod untuk meneroka.
Sumber
- Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. International Conference on Learning Representations (ICLR 2021). link ↗
- Bugliarello, E., Liu, F., Pfeiffer, J., Reddy, S., Elliott, D., Erdem, E., Erdem, A., & Lukasiewicz, T. (2022). IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages. International Conference on Machine Learning (ICML 2022). link ↗
Cara memetik halaman ini
ScholarGate. (2026, June 3). Multilingual Vision Transformer (Multilingual ViT). ScholarGate. https://scholargate.app/ms/deep-learning/multilingual-vision-transformer
Kaedah yang mana?
Letakkan kaedah ini di sebelah kaedah yang paling rapat dengannya dan baca secara bersebelahan — perpustakaan menyusun buku di atas meja; pilihan terletak pada anda.
- Klasifikasi Berasaskan RoBERTa MultilingualPembelajaran Mendalam↔ banding
- Pembenaman Ayat Berbilang BahasaPembelajaran Mendalam↔ banding
- Multimodal Vision TransformerPembelajaran Mendalam↔ banding
- Transformer VisiPembelajaran Mendalam↔ banding
Dirujuk oleh
Terjumpa masalah pada halaman ini? Laporkan atau cadangkan pembetulan →