Multimodal Transformer
En Multimodal Transformer udvider den standard Transformer-arkitektur til at behandle og samlet ræsonnere over to eller flere inputmodaliteter – oftest tekst og billeder, men også lyd, video eller strukturerede data. Krydsmodale opmærksomhedslag (cross-modal attention layers) gør det muligt for information fra én modalitet at informere repræsentationer i en anden, hvilket muliggør opgaver som visuel spørgsmålsbesvarelse, billedtekstgenerering og multimodal sentimentanalyse.
Læs hele metoden
Log ind med en gratis konto for at læse dette afsnit.
Method map
The neighbourhood of related methods — select a node to explore.
+15 more
Kilder
- Lu, J., Batra, D., Parikh, D., & Lee, S. (2019). ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks. Advances in Neural Information Processing Systems (NeurIPS), 32. link ↗
- Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139. link ↗
Sådan citerer du denne side
ScholarGate. (2026, June 3). Multimodal Transformer (Cross-Modal Attention-Based Architecture). ScholarGate. https://scholargate.app/da/deep-learning/multimodal-transformer
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- BERT-baseret klassifikationDyb læring↔ compare
- BilledklassifikationDyb læring↔ compare
- Multimodal BERT-baseret klassifikationDyb læring↔ compare
- SætningsindlejringerDyb læring↔ compare
- Vision TransformerDyb læring↔ compare
Refereret af
Har du fundet en fejl på denne side? Indberet den eller foreslå en rettelse →