ScholarGate
Avustaja
Machine learningDeep learning / NLP / CV

Monimodaalinen muuntaja

Monimodaalinen muuntaja (Multimodal Transformer) laajentaa standardia muuntaja-arkkitehtuuria käsittelemään ja yhdistämään tietoa kahdesta tai useammasta syöttömodaalisuudesta – yleisimmin tekstistä ja kuvista, mutta myös äänestä, videosta tai strukturoidusta datasta. Ristimodulaariset huomiokerrokset (cross-modal attention layers) mahdollistavat tiedon siirtymisen modaalisuudesta toiseen, mikä mahdollistaa tehtäviä kuten visuaalisen kysymysvastaamisen, kuvatekstien generoinnin ja monimodaalisen tunneanalyysin.

Avaa sovelluksessa MethodMindTulossaVideoTulossaLataa diat

Lue koko menetelmä

Vain jäsenille

Kirjaudu sisään maksuttomalla tilillä lukeaksesi tämän osion.

Kirjaudu sisään

Menetelmäkartta

Lähimenetelmien naapurusto — valitse solmu tutkiaksesi.

+15 lisää

Lähteet

  1. Lu, J., Batra, D., Parikh, D., & Lee, S. (2019). ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks. Advances in Neural Information Processing Systems (NeurIPS), 32. link
  2. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139. link

Näin viittaat tähän sivuun

ScholarGate. (2026, June 3). Multimodal Transformer (Cross-Modal Attention-Based Architecture). ScholarGate. https://scholargate.app/fi/deep-learning/multimodal-transformer

Mikä menetelmä?

Aseta tämä menetelmä lähimpien sukulaistensa rinnalle ja lue niitä yhdessä — kirjasto asettaa teokset pöydälle; valinta on sinun.

Vertaa rinnakkain

Tähän viittaavat

ScholarGateMultimodal Transformer (Multimodal Transformer (Cross-Modal Attention-Based Architecture)). Haettu 2026-06-15 osoitteesta https://scholargate.app/fi/deep-learning/multimodal-transformer · Aineisto: https://doi.org/10.5281/zenodo.20539026