Transformer Multimodal
Transformer Multimodal memperluas arsitektur Transformer standar untuk memproses dan secara bersamaan melakukan penalaran atas dua atau lebih modalitas masukan — paling umum teks dan gambar, tetapi juga audio, video, atau data terstruktur. Lapisan perhatian lintas-modal memungkinkan informasi dari satu modalitas untuk menginformasikan representasi di modalitas lain, memungkinkan tugas-tugas seperti tanya jawab visual, penulisan deskripsi gambar, dan analisis sentimen multimodal.
Baca metode selengkapnya
Masuk dengan akun gratis untuk membaca bagian ini.
Method map
The neighbourhood of related methods — select a node to explore.
+15 more
Sumber
- Lu, J., Batra, D., Parikh, D., & Lee, S. (2019). ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks. Advances in Neural Information Processing Systems (NeurIPS), 32. link ↗
- Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139. link ↗
Cara menyitasi halaman ini
ScholarGate. (2026, June 3). Multimodal Transformer (Cross-Modal Attention-Based Architecture). ScholarGate. https://scholargate.app/id/deep-learning/multimodal-transformer
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Klasifikasi Berbasis BERTPembelajaran Mendalam↔ compare
- Klasifikasi CitraPembelajaran Mendalam↔ compare
- Klasifikasi Berbasis BERT MultimodalPembelajaran Mendalam↔ compare
- Sentence EmbeddingsPembelajaran Mendalam↔ compare
- Vision TransformerPembelajaran Mendalam↔ compare
Dirujuk oleh
Menemukan masalah di halaman ini? Laporkan atau usulkan perbaikan →