Multimodal Transformer
En Multimodal Transformer utökar standardarkitekturen Transformer för att bearbeta och gemensamt resonera över två eller flera indatamodaliteter — oftast text och bilder, men även ljud, video eller strukturerad data. Korsmodalitets-uppmärksamhetslager (cross-modal attention layers) tillåter information från en modalitet att informera representationer i en annan, vilket möjliggör uppgifter som visuell frågesvar (visual question answering), bildtextning (image captioning) och multimodal sentimentanalys.
Läs hela metoden
Logga in med ett kostnadsfritt konto för att läsa avsnittet.
Method map
The neighbourhood of related methods — select a node to explore.
+15 more
Källor
- Lu, J., Batra, D., Parikh, D., & Lee, S. (2019). ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks. Advances in Neural Information Processing Systems (NeurIPS), 32. link ↗
- Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139. link ↗
Så citerar du den här sidan
ScholarGate. (2026, June 3). Multimodal Transformer (Cross-Modal Attention-Based Architecture). ScholarGate. https://scholargate.app/sv/deep-learning/multimodal-transformer
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- BERT-baserad klassificeringDjupinlärning↔ compare
- BildklassificeringDjupinlärning↔ compare
- Multimodal BERT-baserad klassificeringDjupinlärning↔ compare
- MeningsinbäddningarDjupinlärning↔ compare
- Vision TransformerDjupinlärning↔ compare
Refereras av
Hittade du ett fel på sidan? Rapportera eller föreslå en rättelse →