ScholarGate
Assistent
Machine learningDeep learning / NLP / CV

Multimodale Vraagbeantwoording

Multimodale vraagbeantwoording (Multimodal QA) is een klasse van deep-learning methoden die natuurlijke taalvragen beantwoorden door gezamenlijk te redeneren over informatie uit meerdere modaliteiten — meest voorkomend tekst en beelden, maar ook video, audio en gestructureerde tabellen. Geïntroduceerd met de VQA benchmark in 2015, is het sindsdien uitgegroeid tot een breed onderzoeksgebied dat documentbegrip, medische diagnoseondersteuning en belichaamde AI aandrijft.

Openen in MethodMindBinnenkortVideoBinnenkortDownload slides

Lees de volledige methode

Alleen voor leden

Log in met een gratis account om dit onderdeel te lezen.

Inloggen

Method map

The neighbourhood of related methods — select a node to explore.

Bronnen

  1. Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D., Zitnick, C. L., & Parikh, D. (2015). VQA: Visual Question Answering. Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2425–2433. DOI: 10.1109/ICCV.2015.279
  2. Xu, P., Zhu, X., & Clifton, D. A. (2023). Multimodal learning with transformers: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45(10), 12113–12132. DOI: 10.1109/TPAMI.2023.3275156

Deze pagina citeren

ScholarGate. (2026, June 3). Multimodal Question Answering (Cross-Modal QA). ScholarGate. https://scholargate.app/nl/deep-learning/multimodal-question-answering

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Geciteerd door

ScholarGateMultimodal question answering (Multimodal Question Answering (Cross-Modal QA)). Geraadpleegd op 2026-06-15 via https://scholargate.app/nl/deep-learning/multimodal-question-answering · Gegevensset: https://doi.org/10.5281/zenodo.20539026