बहुविध प्रश्न उत्तरण (Multimodal Question Answering)
बहुविध प्रश्न उत्तरण (Multimodal QA) गहन-शिक्षण विधियों का एक वर्ग है जो कई माध्यमों से प्राप्त जानकारी पर संयुक्त रूप से तर्क करके प्राकृतिक-भाषा के प्रश्नों का उत्तर देता है — सामान्यतः पाठ और चित्र, लेकिन वीडियो, ऑडियो और संरचित सारणी भी। 2015 में VQA बेंचमार्क के माध्यम से प्रमुखता से प्रस्तुत किया गया, यह तब से दस्तावेज़ समझ, चिकित्सा निदान सहायता और सन्निहित AI को शक्ति प्रदान करने वाले एक व्यापक शोध क्षेत्र में विस्तारित हुआ है।
पूरी विधि पढ़ें
यह खंड पढ़ने के लिए निःशुल्क खाते से साइन इन करें।
पद्धति मानचित्र
सम्बन्धित पद्धतियों का परिवेश — अन्वेषण हेतु किसी नोड का चयन करें।
स्रोत
- Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D., Zitnick, C. L., & Parikh, D. (2015). VQA: Visual Question Answering. Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2425–2433. DOI: 10.1109/ICCV.2015.279 ↗
- Xu, P., Zhu, X., & Clifton, D. A. (2023). Multimodal learning with transformers: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45(10), 12113–12132. DOI: 10.1109/TPAMI.2023.3275156 ↗
इस पृष्ठ का उद्धरण कैसे दें
ScholarGate. (2026, June 3). Multimodal Question Answering (Cross-Modal QA). ScholarGate. https://scholargate.app/hi/deep-learning/multimodal-question-answering
कौन-सी पद्धति?
इस पद्धति को उसकी निकटतम सजातीय पद्धतियों के साथ रखकर उन्हें साथ-साथ पढ़ें — पुस्तकालय पुस्तकें मेज़ पर रख देता है; चुनाव आपका है।
- BERT-आधारित वर्गीकरणगहन अधिगम↔ तुलना करें
- मल्टीमॉडल BERT-आधारित वर्गीकरणगहन अधिगम↔ तुलना करें
- बहुविध वाक्य एम्बेडिंग (Multimodal Sentence Embeddings)गहन अधिगम↔ तुलना करें
- मल्टीमॉडल टेक्स्ट समराइज़ेशन (Multimodal Text Summarization)गहन अधिगम↔ तुलना करें
- मल्टीमॉडल ट्रांसफार्मरगहन अधिगम↔ तुलना करें