ScholarGate
Assistente
Machine learningDeep learning / NLP / CV

Risposta a domande multimodali

La risposta a domande multimodali (Multimodal QA) è una classe di metodi di deep learning che rispondono a domande in linguaggio naturale ragionando congiuntamente su informazioni provenienti da più modalità — più comunemente testo e immagini, ma anche video, audio e tabelle strutturate. Introdotta in modo prominente attraverso il benchmark VQA nel 2015, si è da allora espansa in un'ampia area di ricerca che alimenta la comprensione dei documenti, l'assistenza alla diagnosi medica e l'intelligenza artificiale incarnata (embodied AI).

Apri in MethodMindIn arrivoVideoIn arrivoDownload slides

Leggi il metodo completo

Riservato ai membri

Accedi con un account gratuito per leggere questa sezione.

Accedi

Method map

The neighbourhood of related methods — select a node to explore.

Fonti

  1. Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D., Zitnick, C. L., & Parikh, D. (2015). VQA: Visual Question Answering. Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2425–2433. DOI: 10.1109/ICCV.2015.279
  2. Xu, P., Zhu, X., & Clifton, D. A. (2023). Multimodal learning with transformers: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45(10), 12113–12132. DOI: 10.1109/TPAMI.2023.3275156

Come citare questa pagina

ScholarGate. (2026, June 3). Multimodal Question Answering (Cross-Modal QA). ScholarGate. https://scholargate.app/it/deep-learning/multimodal-question-answering

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Citato da

ScholarGateMultimodal question answering (Multimodal Question Answering (Cross-Modal QA)). Consultato il 2026-06-15 da https://scholargate.app/it/deep-learning/multimodal-question-answering · Insieme di dati: https://doi.org/10.5281/zenodo.20539026