Machine learningDeep learning / NLP / CV

Risposta a domande multimodali

La risposta a domande multimodali (Multimodal QA) è una classe di metodi di deep learning che rispondono a domande in linguaggio naturale ragionando congiuntamente su informazioni provenienti da più modalità — più comunemente testo e immagini, ma anche video, audio e tabelle strutturate. Introdotta in modo prominente attraverso il benchmark VQA nel 2015, si è da allora espansa in un'ampia area di ricerca che alimenta la comprensione dei documenti, l'assistenza alla diagnosi medica e l'intelligenza artificiale incarnata (embodied AI).

Apri in MethodMindIn arrivoVideoIn arrivoDownload slides

Leggi il metodo completo

Riservato ai membri

Accedi con un account gratuito per leggere questa sezione.

Accedi

Method map

The neighbourhood of related methods — select a node to explore.

Risposta a domande multimodali

Classificazione basata s…Classificazione basata s…Embedding multimodali di…Riassunto di testi multi…Transformer Multimodale Riconoscimento di Entità…

Fonti

Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D., Zitnick, C. L., & Parikh, D. (2015). VQA: Visual Question Answering. Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2425–2433. DOI: 10.1109/ICCV.2015.279 ↗
Xu, P., Zhu, X., & Clifton, D. A. (2023). Multimodal learning with transformers: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45(10), 12113–12132. DOI: 10.1109/TPAMI.2023.3275156 ↗

Come citare questa pagina

ScholarGate. (2026, June 3). Multimodal Question Answering (Cross-Modal QA). ScholarGate. https://scholargate.app/it/deep-learning/multimodal-question-answering

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Classificazione basata su BERTApprendimento profondo↔ compare
Classificazione basata su BERT multimodaleApprendimento profondo↔ compare
Embedding multimodali di frasiApprendimento profondo↔ compare
Riassunto di testi multimodaliApprendimento profondo↔ compare
Transformer MultimodaleApprendimento profondo↔ compare

Compare side by side →

Citato da

Riconoscimento di Entità Nominate Multimodale Riassunto di testi multimodali

Hai notato un problema in questa pagina? Segnalalo o proponi una correzione →

Leggi il metodo completo

Method map

Fonti

Come citare questa pagina

Metodi correlati

Which method?

Citato da