Machine learningDeep learning / NLP / CV

מענה שאלות מולטימודאלי

מענה שאלות מולטימודאלי (Multimodal QA) הוא סוג של שיטות למידה עמוקה המשיבות על שאלות בשפה טבעית על ידי הסקת מסקנות משולבת ממידע ממספר מודאליות – לרוב טקסט ותמונות, אך גם וידאו, אודיו וטבלאות מובנות. השיטה הוצגה באופן בולט באמצעות מדד VQA בשנת 2015, ומאז התרחבה לתחום מחקר רחב המניע הבנת מסמכים, סיוע באבחון רפואי ובינה מלאכותית התגלמותית.

פתיחה ב-MethodMindבקרובוידאובקרובDownload slides

קראו את השיטה במלואה

לחברים בלבד

התחברו עם חשבון חינמי כדי לקרוא חלק זה.

התחברות

Method map

The neighbourhood of related methods — select a node to explore.

מקורות

  1. Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D., Zitnick, C. L., & Parikh, D. (2015). VQA: Visual Question Answering. Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2425–2433. DOI: 10.1109/ICCV.2015.279
  2. Xu, P., Zhu, X., & Clifton, D. A. (2023). Multimodal learning with transformers: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45(10), 12113–12132. DOI: 10.1109/TPAMI.2023.3275156

איך לצטט עמוד זה

ScholarGate. (2026, June 3). Multimodal Question Answering (Cross-Modal QA). ScholarGate. https://scholargate.app/he/deep-learning/multimodal-question-answering

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

מאוזכר על ידי

ScholarGateMultimodal question answering (Multimodal Question Answering (Cross-Modal QA)). אוחזר בתאריך 2026-06-15 מתוך https://scholargate.app/he/deep-learning/multimodal-question-answering · מערך נתונים: https://doi.org/10.5281/zenodo.20539026