Machine learningDeep learning / NLP / CV

Multimodální odpovídání na otázky

Multimodální odpovídání na otázky (Multimodal QA) je třída metod hlubokého učení, které odpovídají na otázky v přirozeném jazyce společným uvažováním nad informacemi z více modalit – nejčastěji textu a obrazů, ale také videa, zvuku a strukturovaných tabulek. Tato oblast, která se výrazně prosadila díky benchmarku VQA v roce 2015, se od té doby rozšířila do široké výzkumné oblasti pohánějící porozumění dokumentům, asistenci při lékařské diagnostice a vtělenou umělou inteligenci.

Otevřít v MethodMindJiž brzyVideoJiž brzyDownload slides

Přečíst celou metodu

Pouze pro členy

Pro přečtení této sekce se přihlaste s bezplatným účtem.

Přihlásit se

Method map

The neighbourhood of related methods — select a node to explore.

Multimodální odpovídání na otázky

Klasifikace založená na…Víceúčelová klasifikace…Vícemodální vnoření vět…Multimodální sumarizace…Multimodální Transformer Multimodální rozpoznáván…

Zdroje

Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D., Zitnick, C. L., & Parikh, D. (2015). VQA: Visual Question Answering. Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2425–2433. DOI: 10.1109/ICCV.2015.279 ↗
Xu, P., Zhu, X., & Clifton, D. A. (2023). Multimodal learning with transformers: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45(10), 12113–12132. DOI: 10.1109/TPAMI.2023.3275156 ↗

Jak citovat tuto stránku

ScholarGate. (2026, June 3). Multimodal Question Answering (Cross-Modal QA). ScholarGate. https://scholargate.app/cs/deep-learning/multimodal-question-answering

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Klasifikace založená na BERTHluboké učení↔ compare
Víceúčelová klasifikace založená na BERTHluboké učení↔ compare
Vícemodální vnoření vět (Multimodal Sentence Embeddings)Hluboké učení↔ compare
Multimodální sumarizace textuHluboké učení↔ compare
Multimodální TransformerHluboké učení↔ compare

Compare side by side →

Odkazuje sem

Multimodální rozpoznávání pojmenovaných entit Multimodální sumarizace textu

Našli jste na této stránce chybu? Nahlaste ji nebo navrhněte opravu →