ScholarGate
Assistent
Machine learningDeep learning / NLP / CV

Multimodal transformere

En multimodal transformermodell utvider den standard Transformer-arkitekturen til å behandle og fellesresonere over to eller flere inndatamodaliteter – oftest tekst og bilder, men også lyd, video eller strukturerte data. Kryssmodale oppmerksomhetslag (cross-modal attention layers) gjør at informasjon fra én modalitet kan påvirke representasjoner i en annen, noe som muliggjør oppgaver som visuell spørsmålsbesvarelse, bildebeskrivelse og multimodal sentimentanalyse.

Åpne i MethodMindSnartVideoSnartDownload slides

Les hele metoden

Kun for medlemmer

Logg inn med en gratis konto for å lese denne delen.

Logg inn

Method map

The neighbourhood of related methods — select a node to explore.

+15 more

Kilder

  1. Lu, J., Batra, D., Parikh, D., & Lee, S. (2019). ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks. Advances in Neural Information Processing Systems (NeurIPS), 32. link
  2. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139. link

Slik siterer du denne siden

ScholarGate. (2026, June 3). Multimodal Transformer (Cross-Modal Attention-Based Architecture). ScholarGate. https://scholargate.app/no/deep-learning/multimodal-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Referert av

ScholarGateMultimodal Transformer (Multimodal Transformer (Cross-Modal Attention-Based Architecture)). Hentet 2026-06-15 fra https://scholargate.app/no/deep-learning/multimodal-transformer · Datasett: https://doi.org/10.5281/zenodo.20539026