Tanya Jawab Multimodal
Tanya jawab multimodal (Multimodal QA) adalah kelas metode pembelajaran mendalam yang menjawab pertanyaan bahasa alami dengan penalaran bersama atas informasi dari berbagai modalitas — paling umum teks dan gambar, tetapi juga video, audio, dan tabel terstruktur. Diperkenalkan secara menonjol melalui tolok ukur VQA pada tahun 2015, sejak itu telah berkembang menjadi area penelitian luas yang mendukung pemahaman dokumen, bantuan diagnosis medis, dan AI terwujud.
Baca metode selengkapnya
Masuk dengan akun gratis untuk membaca bagian ini.
Method map
The neighbourhood of related methods — select a node to explore.
Sumber
- Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D., Zitnick, C. L., & Parikh, D. (2015). VQA: Visual Question Answering. Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2425–2433. DOI: 10.1109/ICCV.2015.279 ↗
- Xu, P., Zhu, X., & Clifton, D. A. (2023). Multimodal learning with transformers: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45(10), 12113–12132. DOI: 10.1109/TPAMI.2023.3275156 ↗
Cara menyitasi halaman ini
ScholarGate. (2026, June 3). Multimodal Question Answering (Cross-Modal QA). ScholarGate. https://scholargate.app/id/deep-learning/multimodal-question-answering
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Klasifikasi Berbasis BERTPembelajaran Mendalam↔ compare
- Klasifikasi Berbasis BERT MultimodalPembelajaran Mendalam↔ compare
- Embedding Kalimat MultimodalPembelajaran Mendalam↔ compare
- Ringkasan Teks MultimodalPembelajaran Mendalam↔ compare
- Transformer MultimodalPembelajaran Mendalam↔ compare
Dirujuk oleh
Menemukan masalah di halaman ini? Laporkan atau usulkan perbaikan →