Multimodale Vraagbeantwoording
Multimodale vraagbeantwoording (Multimodal QA) is een klasse van deep-learning methoden die natuurlijke taalvragen beantwoorden door gezamenlijk te redeneren over informatie uit meerdere modaliteiten — meest voorkomend tekst en beelden, maar ook video, audio en gestructureerde tabellen. Geïntroduceerd met de VQA benchmark in 2015, is het sindsdien uitgegroeid tot een breed onderzoeksgebied dat documentbegrip, medische diagnoseondersteuning en belichaamde AI aandrijft.
Lees de volledige methode
Log in met een gratis account om dit onderdeel te lezen.
Method map
The neighbourhood of related methods — select a node to explore.
Bronnen
- Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D., Zitnick, C. L., & Parikh, D. (2015). VQA: Visual Question Answering. Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2425–2433. DOI: 10.1109/ICCV.2015.279 ↗
- Xu, P., Zhu, X., & Clifton, D. A. (2023). Multimodal learning with transformers: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45(10), 12113–12132. DOI: 10.1109/TPAMI.2023.3275156 ↗
Deze pagina citeren
ScholarGate. (2026, June 3). Multimodal Question Answering (Cross-Modal QA). ScholarGate. https://scholargate.app/nl/deep-learning/multimodal-question-answering
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- BERT-gebaseerde ClassificatieDeep learning↔ compare
- Multimodale BERT-gebaseerde classificatieDeep learning↔ compare
- Multimodale zinsinbeddingenDeep learning↔ compare
- Multimodale TekstsamenvattingDeep learning↔ compare
- Multimodale TransformerDeep learning↔ compare
Geciteerd door
Een fout op deze pagina gezien? Meld het of stel een correctie voor →