Machine learningDeep learning / NLP / CV

Multilingual Vision Transformer

Multilingual Vision Transformer (Multilingual ViT) memperluas arsitektur Vision Transformer untuk beroperasi di berbagai bahasa, memungkinkan pemahaman gambar dan penalaran gambar-teks dalam pengaturan multibahasa atau lintas-bahasa. Model ini menggabungkan pengodean gambar berbasis tambalan (patch) dengan representasi teks multibahasa, memungkinkan satu model untuk melayani komunitas linguistik yang beragam untuk tugas-tugas seperti penulisan deskripsi gambar (image captioning), tanya jawab visual (visual question answering), dan pengambilan gambar lintas-bahasa (cross-lingual image retrieval).

Buka di MethodMindSegeraVideoSegeraUnduh salindia

Baca metode selengkapnya

Khusus anggota

Masuk dengan akun gratis untuk membaca bagian ini.

Masuk

Peta metode

Lingkup metode terkait — pilih sebuah simpul untuk menjelajah.

Multilingual Vision Transformer

Klasifikasi Berbasis RoB…Embedding Kalimat Multib…Vision Transformer Multi…Vision Transformer Klasifikasi Citra Multib…

Sumber

Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. International Conference on Learning Representations (ICLR 2021). link ↗
Bugliarello, E., Liu, F., Pfeiffer, J., Reddy, S., Elliott, D., Erdem, E., Erdem, A., & Lukasiewicz, T. (2022). IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages. International Conference on Machine Learning (ICML 2022). link ↗

Cara menyitasi halaman ini

ScholarGate. (2026, June 3). Multilingual Vision Transformer (Multilingual ViT). ScholarGate. https://scholargate.app/id/deep-learning/multilingual-vision-transformer

Metode yang mana?

Letakkan metode ini berdampingan dengan kerabat terdekatnya dan baca secara bersisian — pustaka menata bukunya di atas meja; pilihan ada di tangan Anda.

Klasifikasi Berbasis RoBERTa MultibahasaPembelajaran Mendalam↔ bandingkan
Embedding Kalimat MultibahasaPembelajaran Mendalam↔ bandingkan
Vision Transformer MultimodalPembelajaran Mendalam↔ bandingkan
Vision TransformerPembelajaran Mendalam↔ bandingkan

Bandingkan berdampingan →

Dirujuk oleh

Klasifikasi Citra Multibahasa

Menemukan masalah di halaman ini? Laporkan atau usulkan perbaikan →