Machine learningDeep learning / NLP / CV

Răspuns la întrebări multimodal

Răspunsul la întrebări multimodal (Multimodal QA) este o clasă de metode de deep learning care răspund la întrebări în limbaj natural prin raționament combinat asupra informațiilor din multiple modalități — cel mai frecvent text și imagini, dar și video, audio și tabele structurate. Introdusă proeminent prin benchmark-ul VQA în 2015, a devenit de atunci o arie largă de cercetare care alimentează înțelegerea documentelor, asistența în diagnosticul medical și inteligența artificială întruchipată.

Deschide în MethodMindÎn curândVideoÎn curândDownload slides

Citește metoda completă

Doar pentru membri

Autentifică-te cu un cont gratuit pentru a citi această secțiune.

Autentificare

Method map

The neighbourhood of related methods — select a node to explore.

Răspuns la întrebări multimodal

Clasificare bazată pe BE…Clasificare multimodală…Embeddings multimodale d…Sumarizare multimodală d…Transformer Multimodal Recunoaștere multimodală…

Surse

Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D., Zitnick, C. L., & Parikh, D. (2015). VQA: Visual Question Answering. Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2425–2433. DOI: 10.1109/ICCV.2015.279 ↗
Xu, P., Zhu, X., & Clifton, D. A. (2023). Multimodal learning with transformers: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45(10), 12113–12132. DOI: 10.1109/TPAMI.2023.3275156 ↗

Cum se citează această pagină

ScholarGate. (2026, June 3). Multimodal Question Answering (Cross-Modal QA). ScholarGate. https://scholargate.app/ro/deep-learning/multimodal-question-answering

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Clasificare bazată pe BERTÎnvățare profundă↔ compare
Clasificare multimodală bazată pe BERTÎnvățare profundă↔ compare
Embeddings multimodale de propozițiiÎnvățare profundă↔ compare
Sumarizare multimodală de textÎnvățare profundă↔ compare
Transformer MultimodalÎnvățare profundă↔ compare

Compare side by side →

Citat de

Recunoaștere multimodală a entităților numite Sumarizare multimodală de text

Ai observat o problemă pe această pagină? Raportează sau sugerează o corectură →