Machine learningDeep learning / NLP / CV

Multimodaalne Transformer

Multimodaalne Transformer laiendab standardset Transformer-arhitektuuri kahe või enama sisendmooduse töötlemiseks ja ühiseks arutlemiseks – kõige sagedamini teksti ja kujutiste, aga ka heli, video või struktureeritud andmete puhul. Moodustevahelised tähelepanukihid võimaldavad ühelt mooduselt saadud teabel mõjutada teise mooduse representatsioone, toetades selliseid ülesandeid nagu visuaalne küsimustele vastamine, piltide kirjelduste genereerimine ja multimodaalne tundeanalüüs.

Ava rakenduses MethodMindPeagiVideoPeagiDownload slides

Loe meetodi täielikku kirjeldust

Ainult liikmetele

Selle osa lugemiseks logi sisse tasuta kontoga.

Logi sisse

Method map

The neighbourhood of related methods — select a node to explore.

Multimodaalne Transformer

BERT-põhine klassifitsee…Pildiklassifikatsioon Mitmemodaalne BERT-põhin…Sentence Embeddings Vision Transformer Selgitatav Transformer Multimodaalne konvolutsi…Multimodaalne difusiooni…Multimodal Doc2Vec Multimodaalne GAN

+15 more

Allikad

Lu, J., Batra, D., Parikh, D., & Lee, S. (2019). ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks. Advances in Neural Information Processing Systems (NeurIPS), 32. link ↗
Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139. link ↗

Kuidas sellele lehele viidata

ScholarGate. (2026, June 3). Multimodal Transformer (Cross-Modal Attention-Based Architecture). ScholarGate. https://scholargate.app/et/deep-learning/multimodal-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

BERT-põhine klassifitseerimineSüvaõpe↔ compare
PildiklassifikatsioonSüvaõpe↔ compare
Mitmemodaalne BERT-põhine klassifitseerimineSüvaõpe↔ compare
Sentence EmbeddingsSüvaõpe↔ compare
Vision TransformerSüvaõpe↔ compare

Compare side by side →

Märkasid sellel lehel viga? Teata sellest või paku parandust →

Loe meetodi täielikku kirjeldust

Method map

Allikad

Kuidas sellele lehele viidata

Seotud meetodid

Which method?

Sellele viitavad