Machine learningDeep learning / NLP / CV

Multimodaalne küsimustele vastamine

Multimodaalne küsimustele vastamine (Multimodal QA) on süvaõppe meetodite klass, mis vastab loomuliku keele küsimustele, kombineerides teavet mitmest modaalsusest – kõige sagedamini tekstist ja piltidest, aga ka videost, helist ja struktureeritud tabelitest. Alates 2015. aastal VQA võrdlusuuringuga esilekerkimisest on see laienenud laialdaseks uurimisvaldkonnaks, mis toetab dokumentide mõistmist, meditsiinidiagnostika abi ja kehastatud tehisintellekti.

Ava rakenduses MethodMindPeagiVideoPeagiDownload slides

Loe meetodi täielikku kirjeldust

Ainult liikmetele

Selle osa lugemiseks logi sisse tasuta kontoga.

Logi sisse

Method map

The neighbourhood of related methods — select a node to explore.

Multimodaalne küsimustele vastamine

BERT-põhine klassifitsee…Mitmemodaalne BERT-põhin…Multimodaalsed lausengeb…Multimodaalne tekstikokk…Multimodaalne Transformer Multimodaalne nimeeritud…

Allikad

Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D., Zitnick, C. L., & Parikh, D. (2015). VQA: Visual Question Answering. Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2425–2433. DOI: 10.1109/ICCV.2015.279 ↗
Xu, P., Zhu, X., & Clifton, D. A. (2023). Multimodal learning with transformers: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45(10), 12113–12132. DOI: 10.1109/TPAMI.2023.3275156 ↗

Kuidas sellele lehele viidata

ScholarGate. (2026, June 3). Multimodal Question Answering (Cross-Modal QA). ScholarGate. https://scholargate.app/et/deep-learning/multimodal-question-answering

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

BERT-põhine klassifitseerimineSüvaõpe↔ compare
Mitmemodaalne BERT-põhine klassifitseerimineSüvaõpe↔ compare
Multimodaalsed lausengebedidSüvaõpe↔ compare
Multimodaalne tekstikokkuvõteSüvaõpe↔ compare
Multimodaalne TransformerSüvaõpe↔ compare

Compare side by side →

Sellele viitavad

Multimodaalne nimeeritud üksuste äratundmine Multimodaalne tekstikokkuvõte

Märkasid sellel lehel viga? Teata sellest või paku parandust →