Daudzmodālu Transformers
Daudzmodālu Transformers paplašina standarta Transformer arhitektūru, lai apstrādātu un kopīgi argumentētu par divām vai vairākām ieejas modalitātēm — visbiežāk tekstu un attēliem, bet arī audio, video vai strukturētiem datiem. Krusmodālu uzmanības slāņi ļauj vienas modalitātes informācijai ietekmēt citu modalitāšu attēlojumus, nodrošinot tādas uzdevumu veikšanu kā vizuālā jautājumu atbildēšana, attēlu aprakstīšana un daudzmodālu sentimenta analīze.
Lasīt pilno metodes aprakstu
Piesakieties ar bezmaksas kontu, lai lasītu šo sadaļu.
Metožu karte
Saistīto metožu apkaime — atlasiet mezglu, lai izpētītu.
+vēl 15
Avoti
- Lu, J., Batra, D., Parikh, D., & Lee, S. (2019). ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks. Advances in Neural Information Processing Systems (NeurIPS), 32. link ↗
- Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139. link ↗
Kā citēt šo lapu
ScholarGate. (2026, June 3). Multimodal Transformer (Cross-Modal Attention-Based Architecture). ScholarGate. https://scholargate.app/lv/deep-learning/multimodal-transformer
Kura metode?
Novietojiet šo metodi blakus tās tuvākajām radniecīgajām metodēm un lasiet tās līdzās — bibliotēka noliek grāmatas uz galda; izvēle ir jūsu.
- BERT klasifikācijaDziļā mācīšanās↔ salīdzināt
- Attēlu klasifikācijaDziļā mācīšanās↔ salīdzināt
- Multimodāla BERT klasifikācijaDziļā mācīšanās↔ salīdzināt
- Ievietojumi teikumiemDziļā mācīšanās↔ salīdzināt
- Vision TransformerDziļā mācīšanās↔ salīdzināt
Uz to atsaucas
Pamanījāt kļūdu šajā lapā? Ziņojiet vai ierosiniet labojumu →