Machine learningDeep learning / NLP / CV

Tanya Jawab Multimodal

Tanya jawab multimodal (Multimodal QA) adalah kelas metode pembelajaran mendalam yang menjawab pertanyaan bahasa alami dengan penalaran bersama atas informasi dari berbagai modalitas — paling umum teks dan gambar, tetapi juga video, audio, dan tabel terstruktur. Diperkenalkan secara menonjol melalui tolok ukur VQA pada tahun 2015, sejak itu telah berkembang menjadi area penelitian luas yang mendukung pemahaman dokumen, bantuan diagnosis medis, dan AI terwujud.

Buka di MethodMindSegeraVideoSegeraDownload slides

Baca metode selengkapnya

Khusus anggota

Masuk dengan akun gratis untuk membaca bagian ini.

Masuk

Method map

The neighbourhood of related methods — select a node to explore.

Tanya Jawab Multimodal

Klasifikasi Berbasis BERT Klasifikasi Berbasis BER…Embedding Kalimat Multim…Ringkasan Teks Multimodal Transformer Multimodal Pengenalan Entitas Berna…

Sumber

Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D., Zitnick, C. L., & Parikh, D. (2015). VQA: Visual Question Answering. Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2425–2433. DOI: 10.1109/ICCV.2015.279 ↗
Xu, P., Zhu, X., & Clifton, D. A. (2023). Multimodal learning with transformers: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45(10), 12113–12132. DOI: 10.1109/TPAMI.2023.3275156 ↗

Cara menyitasi halaman ini

ScholarGate. (2026, June 3). Multimodal Question Answering (Cross-Modal QA). ScholarGate. https://scholargate.app/id/deep-learning/multimodal-question-answering

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Klasifikasi Berbasis BERTPembelajaran Mendalam↔ compare
Klasifikasi Berbasis BERT MultimodalPembelajaran Mendalam↔ compare
Embedding Kalimat MultimodalPembelajaran Mendalam↔ compare
Ringkasan Teks MultimodalPembelajaran Mendalam↔ compare
Transformer MultimodalPembelajaran Mendalam↔ compare

Compare side by side →

Dirujuk oleh

Pengenalan Entitas Bernama Multimodal Ringkasan Teks Multimodal

Menemukan masalah di halaman ini? Laporkan atau usulkan perbaikan →