ScholarGate
सहायक
Machine learningDeep learning / NLP / CV

बहुविध प्रश्न उत्तरण (Multimodal Question Answering)

बहुविध प्रश्न उत्तरण (Multimodal QA) गहन-शिक्षण विधियों का एक वर्ग है जो कई माध्यमों से प्राप्त जानकारी पर संयुक्त रूप से तर्क करके प्राकृतिक-भाषा के प्रश्नों का उत्तर देता है — सामान्यतः पाठ और चित्र, लेकिन वीडियो, ऑडियो और संरचित सारणी भी। 2015 में VQA बेंचमार्क के माध्यम से प्रमुखता से प्रस्तुत किया गया, यह तब से दस्तावेज़ समझ, चिकित्सा निदान सहायता और सन्निहित AI को शक्ति प्रदान करने वाले एक व्यापक शोध क्षेत्र में विस्तारित हुआ है।

MethodMind में खोलेंजल्द हीवीडियोजल्द हीस्लाइड डाउनलोड करें

पूरी विधि पढ़ें

केवल सदस्यों के लिए

यह खंड पढ़ने के लिए निःशुल्क खाते से साइन इन करें।

साइन इन करें

पद्धति मानचित्र

सम्बन्धित पद्धतियों का परिवेश — अन्वेषण हेतु किसी नोड का चयन करें।

स्रोत

  1. Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D., Zitnick, C. L., & Parikh, D. (2015). VQA: Visual Question Answering. Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2425–2433. DOI: 10.1109/ICCV.2015.279
  2. Xu, P., Zhu, X., & Clifton, D. A. (2023). Multimodal learning with transformers: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45(10), 12113–12132. DOI: 10.1109/TPAMI.2023.3275156

इस पृष्ठ का उद्धरण कैसे दें

ScholarGate. (2026, June 3). Multimodal Question Answering (Cross-Modal QA). ScholarGate. https://scholargate.app/hi/deep-learning/multimodal-question-answering

कौन-सी पद्धति?

इस पद्धति को उसकी निकटतम सजातीय पद्धतियों के साथ रखकर उन्हें साथ-साथ पढ़ें — पुस्तकालय पुस्तकें मेज़ पर रख देता है; चुनाव आपका है।

साथ-साथ तुलना करें

इनमें संदर्भित

ScholarGateMultimodal question answering (Multimodal Question Answering (Cross-Modal QA)). 2026-06-15 को यहाँ से प्राप्त https://scholargate.app/hi/deep-learning/multimodal-question-answering · डेटासेट: https://doi.org/10.5281/zenodo.20539026