پاسخگویی به پرسشهای چندوجهی
پاسخگویی به پرسشهای چندوجهی (Multimodal QA) دستهای از روشهای یادگیری عمیق است که با استدلال مشترک بر اطلاعات حاصل از چندین وجه (معمولاً متن و تصویر، اما همچنین ویدئو، صدا و جداول ساختاریافته) به پرسشهای زبان طبیعی پاسخ میدهد. این روش که در سال ۲۰۱۵ با معیار VQA به طور برجسته معرفی شد، از آن زمان به یک حوزه تحقیقاتی گسترده تبدیل شده است که درک اسناد، کمک به تشخیص پزشکی و هوش مصنوعی تجسمیافته را تقویت میکند.
مطالعهٔ کامل روش
برای خواندن این بخش با حساب رایگان وارد شوید.
Method map
The neighbourhood of related methods — select a node to explore.
منابع
- Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D., Zitnick, C. L., & Parikh, D. (2015). VQA: Visual Question Answering. Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2425–2433. DOI: 10.1109/ICCV.2015.279 ↗
- Xu, P., Zhu, X., & Clifton, D. A. (2023). Multimodal learning with transformers: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45(10), 12113–12132. DOI: 10.1109/TPAMI.2023.3275156 ↗
نحوهٔ استناد به این صفحه
ScholarGate. (2026, June 3). Multimodal Question Answering (Cross-Modal QA). ScholarGate. https://scholargate.app/fa/deep-learning/multimodal-question-answering
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- طبقهبندی مبتنی بر بِرْتیادگیری عمیق↔ compare
- طبقهبندی چندوجهی مبتنی بر BERTیادگیری عمیق↔ compare
- تعبیههای جملات چندوجهییادگیری عمیق↔ compare
- خلاصهسازی متن چندوجهییادگیری عمیق↔ compare
- ترانسفورمر چندوجهییادگیری عمیق↔ compare
ارجاعشده در
در این صفحه مشکلی دیدید؟ گزارش دهید یا اصلاحی پیشنهاد کنید →