Machine learningDeep learning / NLP / CV
מענה שאלות מולטימודאלי
מענה שאלות מולטימודאלי (Multimodal QA) הוא סוג של שיטות למידה עמוקה המשיבות על שאלות בשפה טבעית על ידי הסקת מסקנות משולבת ממידע ממספר מודאליות – לרוב טקסט ותמונות, אך גם וידאו, אודיו וטבלאות מובנות. השיטה הוצגה באופן בולט באמצעות מדד VQA בשנת 2015, ומאז התרחבה לתחום מחקר רחב המניע הבנת מסמכים, סיוע באבחון רפואי ובינה מלאכותית התגלמותית.
קראו את השיטה במלואה
לחברים בלבד
התחברותהתחברו עם חשבון חינמי כדי לקרוא חלק זה.
Method map
The neighbourhood of related methods — select a node to explore.
מקורות
- Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D., Zitnick, C. L., & Parikh, D. (2015). VQA: Visual Question Answering. Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2425–2433. DOI: 10.1109/ICCV.2015.279 ↗
- Xu, P., Zhu, X., & Clifton, D. A. (2023). Multimodal learning with transformers: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45(10), 12113–12132. DOI: 10.1109/TPAMI.2023.3275156 ↗
איך לצטט עמוד זה
ScholarGate. (2026, June 3). Multimodal Question Answering (Cross-Modal QA). ScholarGate. https://scholargate.app/he/deep-learning/multimodal-question-answering
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- סיווג מבוסס BERTלמידה עמוקה↔ compare
- סיווג מבוסס BERT רב-מודאלילמידה עמוקה↔ compare
- שיכוני משפטים מולטי-מודאלייםלמידה עמוקה↔ compare
- סיכום טקסט רב-אופנילמידה עמוקה↔ compare
- טרנספורמר רב-מודאלילמידה עמוקה↔ compare