Monimodaalinen muuntaja
Monimodaalinen muuntaja (Multimodal Transformer) laajentaa standardia muuntaja-arkkitehtuuria käsittelemään ja yhdistämään tietoa kahdesta tai useammasta syöttömodaalisuudesta – yleisimmin tekstistä ja kuvista, mutta myös äänestä, videosta tai strukturoidusta datasta. Ristimodulaariset huomiokerrokset (cross-modal attention layers) mahdollistavat tiedon siirtymisen modaalisuudesta toiseen, mikä mahdollistaa tehtäviä kuten visuaalisen kysymysvastaamisen, kuvatekstien generoinnin ja monimodaalisen tunneanalyysin.
Lue koko menetelmä
Kirjaudu sisään maksuttomalla tilillä lukeaksesi tämän osion.
Menetelmäkartta
Lähimenetelmien naapurusto — valitse solmu tutkiaksesi.
+15 lisää
Lähteet
- Lu, J., Batra, D., Parikh, D., & Lee, S. (2019). ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks. Advances in Neural Information Processing Systems (NeurIPS), 32. link ↗
- Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139. link ↗
Näin viittaat tähän sivuun
ScholarGate. (2026, June 3). Multimodal Transformer (Cross-Modal Attention-Based Architecture). ScholarGate. https://scholargate.app/fi/deep-learning/multimodal-transformer
Mikä menetelmä?
Aseta tämä menetelmä lähimpien sukulaistensa rinnalle ja lue niitä yhdessä — kirjasto asettaa teokset pöydälle; valinta on sinun.
- BERT-pohjainen luokitteluSyväoppiminen↔ vertaa
- KuvanluokitteluSyväoppiminen↔ vertaa
- Monimuotoinen BERT-pohjainen luokitteluSyväoppiminen↔ vertaa
- LauseupotuksetSyväoppiminen↔ vertaa
- Vision TransformerSyväoppiminen↔ vertaa
Tähän viittaavat
Huomasitko virheen tällä sivulla? Ilmoita siitä tai ehdota korjausta →