Multimodaalne küsimustele vastamine
Multimodaalne küsimustele vastamine (Multimodal QA) on süvaõppe meetodite klass, mis vastab loomuliku keele küsimustele, kombineerides teavet mitmest modaalsusest – kõige sagedamini tekstist ja piltidest, aga ka videost, helist ja struktureeritud tabelitest. Alates 2015. aastal VQA võrdlusuuringuga esilekerkimisest on see laienenud laialdaseks uurimisvaldkonnaks, mis toetab dokumentide mõistmist, meditsiinidiagnostika abi ja kehastatud tehisintellekti.
Loe meetodi täielikku kirjeldust
Selle osa lugemiseks logi sisse tasuta kontoga.
Method map
The neighbourhood of related methods — select a node to explore.
Allikad
- Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D., Zitnick, C. L., & Parikh, D. (2015). VQA: Visual Question Answering. Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2425–2433. DOI: 10.1109/ICCV.2015.279 ↗
- Xu, P., Zhu, X., & Clifton, D. A. (2023). Multimodal learning with transformers: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45(10), 12113–12132. DOI: 10.1109/TPAMI.2023.3275156 ↗
Kuidas sellele lehele viidata
ScholarGate. (2026, June 3). Multimodal Question Answering (Cross-Modal QA). ScholarGate. https://scholargate.app/et/deep-learning/multimodal-question-answering
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- BERT-põhine klassifitseerimineSüvaõpe↔ compare
- Mitmemodaalne BERT-põhine klassifitseerimineSüvaõpe↔ compare
- Multimodaalsed lausengebedidSüvaõpe↔ compare
- Multimodaalne tekstikokkuvõteSüvaõpe↔ compare
- Multimodaalne TransformerSüvaõpe↔ compare
Sellele viitavad
Märkasid sellel lehel viga? Teata sellest või paku parandust →