ScholarGate
Assistent
Machine learningDeep learning / NLP / CV

Multimodale Vision Transformer

Multimodale Vision Transformer (Multimodale ViT) breidt de Vision Transformer-architectuur uit om representaties van meerdere modaliteiten – doorgaus beelden en tekst – gezamenlijk te verwerken en uit te lijnen met behulp van self-attention en cross-attention mechanismen. Door gedeelde of uitgelijnde embeddingruimtes over modaliteiten heen te leren, maakt het taken mogelijk zoals visuele vraagbeantwoording, beeld-tekst retrieval, visuele grounding en beeldcaptioning.

Openen in MethodMindBinnenkortVideoBinnenkortDownload slides

Lees de volledige methode

Alleen voor leden

Log in met een gratis account om dit onderdeel te lezen.

Inloggen

Method map

The neighbourhood of related methods — select a node to explore.

+1 more

Bronnen

  1. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In International Conference on Learning Representations (ICLR). link
  2. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139. link

Deze pagina citeren

ScholarGate. (2026, June 3). Multimodal Vision Transformer (Multimodal ViT). ScholarGate. https://scholargate.app/nl/deep-learning/multimodal-vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Geciteerd door

ScholarGateMultimodal Vision Transformer (Multimodal Vision Transformer (Multimodal ViT)). Geraadpleegd op 2026-06-15 via https://scholargate.app/nl/deep-learning/multimodal-vision-transformer · Gegevensset: https://doi.org/10.5281/zenodo.20539026