ScholarGate
Asistents
Machine learningDeep learning / NLP / CV

Daudzmodālu Transformers

Daudzmodālu Transformers paplašina standarta Transformer arhitektūru, lai apstrādātu un kopīgi argumentētu par divām vai vairākām ieejas modalitātēm — visbiežāk tekstu un attēliem, bet arī audio, video vai strukturētiem datiem. Krusmodālu uzmanības slāņi ļauj vienas modalitātes informācijai ietekmēt citu modalitāšu attēlojumus, nodrošinot tādas uzdevumu veikšanu kā vizuālā jautājumu atbildēšana, attēlu aprakstīšana un daudzmodālu sentimenta analīze.

Atvērt MethodMindDrīzumāVideoDrīzumāLejupielādēt slaidus

Lasīt pilno metodes aprakstu

Tikai dalībniekiem

Piesakieties ar bezmaksas kontu, lai lasītu šo sadaļu.

Pieteikties

Metožu karte

Saistīto metožu apkaime — atlasiet mezglu, lai izpētītu.

+vēl 15

Avoti

  1. Lu, J., Batra, D., Parikh, D., & Lee, S. (2019). ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks. Advances in Neural Information Processing Systems (NeurIPS), 32. link
  2. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139. link

Kā citēt šo lapu

ScholarGate. (2026, June 3). Multimodal Transformer (Cross-Modal Attention-Based Architecture). ScholarGate. https://scholargate.app/lv/deep-learning/multimodal-transformer

Kura metode?

Novietojiet šo metodi blakus tās tuvākajām radniecīgajām metodēm un lasiet tās līdzās — bibliotēka noliek grāmatas uz galda; izvēle ir jūsu.

Salīdzināt blakus

Uz to atsaucas

ScholarGateMultimodal Transformer (Multimodal Transformer (Cross-Modal Attention-Based Architecture)). Izgūts 2026-06-15 no https://scholargate.app/lv/deep-learning/multimodal-transformer · Datu kopa: https://doi.org/10.5281/zenodo.20539026