Machine learningDeep learning / NLP / CV

Multimodale Vraagbeantwoording

Multimodale vraagbeantwoording (Multimodal QA) is een klasse van deep-learning methoden die natuurlijke taalvragen beantwoorden door gezamenlijk te redeneren over informatie uit meerdere modaliteiten — meest voorkomend tekst en beelden, maar ook video, audio en gestructureerde tabellen. Geïntroduceerd met de VQA benchmark in 2015, is het sindsdien uitgegroeid tot een breed onderzoeksgebied dat documentbegrip, medische diagnoseondersteuning en belichaamde AI aandrijft.

Openen in MethodMindBinnenkortVideoBinnenkortDownload slides

Lees de volledige methode

Alleen voor leden

Inloggen

Method map

The neighbourhood of related methods — select a node to explore.

Multimodale Vraagbeantwoording

BERT-gebaseerde Classifi…Multimodale BERT-gebasee…Multimodale zinsinbeddin…Multimodale Tekstsamenva…Multimodale Transformer Multimodale Named Entity…

Bronnen

Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D., Zitnick, C. L., & Parikh, D. (2015). VQA: Visual Question Answering. Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2425–2433. DOI: 10.1109/ICCV.2015.279 ↗
Xu, P., Zhu, X., & Clifton, D. A. (2023). Multimodal learning with transformers: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45(10), 12113–12132. DOI: 10.1109/TPAMI.2023.3275156 ↗

Deze pagina citeren

ScholarGate. (2026, June 3). Multimodal Question Answering (Cross-Modal QA). ScholarGate. https://scholargate.app/nl/deep-learning/multimodal-question-answering

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

BERT-gebaseerde ClassificatieDeep learning↔ compare
Multimodale BERT-gebaseerde classificatieDeep learning↔ compare
Multimodale zinsinbeddingenDeep learning↔ compare
Multimodale TekstsamenvattingDeep learning↔ compare
Multimodale TransformerDeep learning↔ compare

Compare side by side →

Geciteerd door

Multimodale Named Entity Recognition Multimodale Tekstsamenvatting

Een fout op deze pagina gezien? Meld het of stel een correctie voor →