ScholarGate
Asisten
Machine learningDeep learning / NLP / CV

Tanya Jawab Multimodal

Tanya jawab multimodal (Multimodal QA) adalah kelas metode pembelajaran mendalam yang menjawab pertanyaan bahasa alami dengan penalaran bersama atas informasi dari berbagai modalitas — paling umum teks dan gambar, tetapi juga video, audio, dan tabel terstruktur. Diperkenalkan secara menonjol melalui tolok ukur VQA pada tahun 2015, sejak itu telah berkembang menjadi area penelitian luas yang mendukung pemahaman dokumen, bantuan diagnosis medis, dan AI terwujud.

Buka di MethodMindSegeraVideoSegeraDownload slides

Baca metode selengkapnya

Khusus anggota

Masuk dengan akun gratis untuk membaca bagian ini.

Masuk

Method map

The neighbourhood of related methods — select a node to explore.

Sumber

  1. Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D., Zitnick, C. L., & Parikh, D. (2015). VQA: Visual Question Answering. Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2425–2433. DOI: 10.1109/ICCV.2015.279
  2. Xu, P., Zhu, X., & Clifton, D. A. (2023). Multimodal learning with transformers: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45(10), 12113–12132. DOI: 10.1109/TPAMI.2023.3275156

Cara menyitasi halaman ini

ScholarGate. (2026, June 3). Multimodal Question Answering (Cross-Modal QA). ScholarGate. https://scholargate.app/id/deep-learning/multimodal-question-answering

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Dirujuk oleh

ScholarGateMultimodal question answering (Multimodal Question Answering (Cross-Modal QA)). Diakses 2026-06-15 dari https://scholargate.app/id/deep-learning/multimodal-question-answering · Set data: https://doi.org/10.5281/zenodo.20539026