ScholarGate
Asisten
Machine learningDeep learning / NLP / CV

Multilingual Vision Transformer

Multilingual Vision Transformer (Multilingual ViT) memperluas arsitektur Vision Transformer untuk beroperasi di berbagai bahasa, memungkinkan pemahaman gambar dan penalaran gambar-teks dalam pengaturan multibahasa atau lintas-bahasa. Model ini menggabungkan pengodean gambar berbasis tambalan (patch) dengan representasi teks multibahasa, memungkinkan satu model untuk melayani komunitas linguistik yang beragam untuk tugas-tugas seperti penulisan deskripsi gambar (image captioning), tanya jawab visual (visual question answering), dan pengambilan gambar lintas-bahasa (cross-lingual image retrieval).

Buka di MethodMindSegeraVideoSegeraUnduh salindia

Baca metode selengkapnya

Khusus anggota

Masuk dengan akun gratis untuk membaca bagian ini.

Masuk

Peta metode

Lingkup metode terkait — pilih sebuah simpul untuk menjelajah.

Sumber

  1. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. International Conference on Learning Representations (ICLR 2021). link
  2. Bugliarello, E., Liu, F., Pfeiffer, J., Reddy, S., Elliott, D., Erdem, E., Erdem, A., & Lukasiewicz, T. (2022). IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages. International Conference on Machine Learning (ICML 2022). link

Cara menyitasi halaman ini

ScholarGate. (2026, June 3). Multilingual Vision Transformer (Multilingual ViT). ScholarGate. https://scholargate.app/id/deep-learning/multilingual-vision-transformer

Metode yang mana?

Letakkan metode ini berdampingan dengan kerabat terdekatnya dan baca secara bersisian — pustaka menata bukunya di atas meja; pilihan ada di tangan Anda.

Bandingkan berdampingan

Dirujuk oleh

ScholarGateMultilingual vision transformer (Multilingual Vision Transformer (Multilingual ViT)). Diakses 2026-06-15 dari https://scholargate.app/id/deep-learning/multilingual-vision-transformer · Set data: https://doi.org/10.5281/zenodo.20539026