ScholarGate
Assistent
Machine learningDeep learning / NLP / CV

Multimodaalne Transformer

Multimodaalne Transformer laiendab standardset Transformer-arhitektuuri kahe või enama sisendmooduse töötlemiseks ja ühiseks arutlemiseks – kõige sagedamini teksti ja kujutiste, aga ka heli, video või struktureeritud andmete puhul. Moodustevahelised tähelepanukihid võimaldavad ühelt mooduselt saadud teabel mõjutada teise mooduse representatsioone, toetades selliseid ülesandeid nagu visuaalne küsimustele vastamine, piltide kirjelduste genereerimine ja multimodaalne tundeanalüüs.

Ava rakenduses MethodMindPeagiVideoPeagiDownload slides

Loe meetodi täielikku kirjeldust

Ainult liikmetele

Selle osa lugemiseks logi sisse tasuta kontoga.

Logi sisse

Method map

The neighbourhood of related methods — select a node to explore.

+15 more

Allikad

  1. Lu, J., Batra, D., Parikh, D., & Lee, S. (2019). ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks. Advances in Neural Information Processing Systems (NeurIPS), 32. link
  2. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139. link

Kuidas sellele lehele viidata

ScholarGate. (2026, June 3). Multimodal Transformer (Cross-Modal Attention-Based Architecture). ScholarGate. https://scholargate.app/et/deep-learning/multimodal-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Sellele viitavad

ScholarGateMultimodal Transformer (Multimodal Transformer (Cross-Modal Attention-Based Architecture)). Loetud 2026-06-15 aadressilt https://scholargate.app/et/deep-learning/multimodal-transformer · Andmestik: https://doi.org/10.5281/zenodo.20539026