ScholarGate
Assistent
Machine learningDeep learning / NLP / CV

Multimodal Vision Transformer

Multimodal Vision Transformer (Multimodal ViT) utvider Vision Transformer-arkitekturen for å felles prosessere og justere representasjoner fra flere modaliteter – typisk bilder og tekst – ved hjelp av self-attention og cross-attention-mekanismer. Ved å lære delte eller justerte innleiringsrom på tvers av modaliteter, muliggjør den oppgaver som visuell spørsmålsbesvarelse, bilde-tekst-henting, visuell forankring og bildebeskrivelse.

Åpne i MethodMindSnartVideoSnartDownload slides

Les hele metoden

Kun for medlemmer

Logg inn med en gratis konto for å lese denne delen.

Logg inn

Method map

The neighbourhood of related methods — select a node to explore.

+1 more

Kilder

  1. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In International Conference on Learning Representations (ICLR). link
  2. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139. link

Slik siterer du denne siden

ScholarGate. (2026, June 3). Multimodal Vision Transformer (Multimodal ViT). ScholarGate. https://scholargate.app/no/deep-learning/multimodal-vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Referert av

ScholarGateMultimodal Vision Transformer (Multimodal Vision Transformer (Multimodal ViT)). Hentet 2026-06-15 fra https://scholargate.app/no/deep-learning/multimodal-vision-transformer · Datasett: https://doi.org/10.5281/zenodo.20539026