Machine learningDeep learning / NLP / CV

Vision Transformer Multimodal

Vision Transformer Multimodal (ViT Multimodal) memperluas arsitektur Vision Transformer untuk memproses dan menyelaraskan representasi dari berbagai modalitas — biasanya gambar dan teks — secara bersamaan menggunakan mekanisme perhatian diri (self-attention) dan perhatian silang (cross-attention). Dengan mempelajari ruang penyematan (embedding space) bersama atau yang selaras di berbagai modalitas, ia memungkinkan tugas-tugas seperti tanya jawab visual, pengambilan gambar-teks, penjejakan visual, dan pembuatan keterangan gambar.

Buka di MethodMindSegeraVideoSegeraDownload slides

Baca metode selengkapnya

Khusus anggota

Masuk dengan akun gratis untuk membaca bagian ini.

Masuk

Method map

The neighbourhood of related methods — select a node to explore.

Vision Transformer Multimodal

Klasifikasi Berbasis BERT Vision Transformer yang…Klasifikasi Citra Klasifikasi Berbasis BER…Vision Transformer Vision Transformer yang…Multilingual Vision Tran…Model Difusi Multimodal Segmentasi Instans Multi…Pembelajaran Penguatan M…

+1 more

Sumber

Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In International Conference on Learning Representations (ICLR). link ↗
Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139. link ↗

Cara menyitasi halaman ini

ScholarGate. (2026, June 3). Multimodal Vision Transformer (Multimodal ViT). ScholarGate. https://scholargate.app/id/deep-learning/multimodal-vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Klasifikasi Berbasis BERTPembelajaran Mendalam↔ compare
Vision Transformer yang Disesuaikan (Fine-Tuned)Pembelajaran Mendalam↔ compare
Klasifikasi CitraPembelajaran Mendalam↔ compare
Klasifikasi Berbasis BERT MultimodalPembelajaran Mendalam↔ compare
Vision TransformerPembelajaran Mendalam↔ compare

Compare side by side →

Dirujuk oleh

Vision Transformer yang Dapat Dijelaskan Multilingual Vision Transformer Model Difusi Multimodal Segmentasi Instans Multimodal Pembelajaran Penguatan Multimodal Vision Transformer Pengawasan Mandiri

Menemukan masalah di halaman ini? Laporkan atau usulkan perbaikan →

Baca metode selengkapnya

Method map

Sumber

Cara menyitasi halaman ini

Metode terkait

Which method?

Dirujuk oleh