Multimodaalne Transformer
Multimodaalne Transformer laiendab standardset Transformer-arhitektuuri kahe või enama sisendmooduse töötlemiseks ja ühiseks arutlemiseks – kõige sagedamini teksti ja kujutiste, aga ka heli, video või struktureeritud andmete puhul. Moodustevahelised tähelepanukihid võimaldavad ühelt mooduselt saadud teabel mõjutada teise mooduse representatsioone, toetades selliseid ülesandeid nagu visuaalne küsimustele vastamine, piltide kirjelduste genereerimine ja multimodaalne tundeanalüüs.
Loe meetodi täielikku kirjeldust
Selle osa lugemiseks logi sisse tasuta kontoga.
Method map
The neighbourhood of related methods — select a node to explore.
+15 more
Allikad
- Lu, J., Batra, D., Parikh, D., & Lee, S. (2019). ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks. Advances in Neural Information Processing Systems (NeurIPS), 32. link ↗
- Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139. link ↗
Kuidas sellele lehele viidata
ScholarGate. (2026, June 3). Multimodal Transformer (Cross-Modal Attention-Based Architecture). ScholarGate. https://scholargate.app/et/deep-learning/multimodal-transformer
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- BERT-põhine klassifitseerimineSüvaõpe↔ compare
- PildiklassifikatsioonSüvaõpe↔ compare
- Mitmemodaalne BERT-põhine klassifitseerimineSüvaõpe↔ compare
- Sentence EmbeddingsSüvaõpe↔ compare
- Vision TransformerSüvaõpe↔ compare
Sellele viitavad
Märkasid sellel lehel viga? Teata sellest või paku parandust →