Machine learningDeep learning / NLP / CV

מענה שאלות מולטימודאלי

מענה שאלות מולטימודאלי (Multimodal QA) הוא סוג של שיטות למידה עמוקה המשיבות על שאלות בשפה טבעית על ידי הסקת מסקנות משולבת ממידע ממספר מודאליות – לרוב טקסט ותמונות, אך גם וידאו, אודיו וטבלאות מובנות. השיטה הוצגה באופן בולט באמצעות מדד VQA בשנת 2015, ומאז התרחבה לתחום מחקר רחב המניע הבנת מסמכים, סיוע באבחון רפואי ובינה מלאכותית התגלמותית.

פתיחה ב-MethodMindבקרובוידאובקרובDownload slides

קראו את השיטה במלואה

לחברים בלבד

התחברו עם חשבון חינמי כדי לקרוא חלק זה.

התחברות

Method map

The neighbourhood of related methods — select a node to explore.

מענה שאלות מולטימודאלי

סיווג מבוסס BERT סיווג מבוסס BERT רב-מודא…שיכוני משפטים מולטי-מודא…סיכום טקסט רב-אופני טרנספורמר רב-מודאלי זיהוי ישויות מוכרות רב-מ…

מקורות

Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D., Zitnick, C. L., & Parikh, D. (2015). VQA: Visual Question Answering. Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2425–2433. DOI: 10.1109/ICCV.2015.279 ↗
Xu, P., Zhu, X., & Clifton, D. A. (2023). Multimodal learning with transformers: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45(10), 12113–12132. DOI: 10.1109/TPAMI.2023.3275156 ↗

איך לצטט עמוד זה

ScholarGate. (2026, June 3). Multimodal Question Answering (Cross-Modal QA). ScholarGate. https://scholargate.app/he/deep-learning/multimodal-question-answering

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

סיווג מבוסס BERTלמידה עמוקה↔ compare
סיווג מבוסס BERT רב-מודאלילמידה עמוקה↔ compare
שיכוני משפטים מולטי-מודאלייםלמידה עמוקה↔ compare
סיכום טקסט רב-אופנילמידה עמוקה↔ compare
טרנספורמר רב-מודאלילמידה עמוקה↔ compare

Compare side by side →

מאוזכר על ידי

זיהוי ישויות מוכרות רב-מודאלי (Multimodal Named Entity Recognition)סיכום טקסט רב-אופני

מצאתם בעיה בעמוד זה? דווחו או הציעו תיקון →