बहुविध वाक्य एम्बेडिंग (Multimodal Sentence Embeddings)
बहुविध वाक्य एम्बेडिंग पाठ और छवियों (और कभी-कभी ऑडियो या वीडियो) को एक साझा सतत सदिश समष्टि (shared continuous vector space) में मैप करते हैं, ताकि विभिन्न विधाओं (modalities) से अर्थगत रूप से संबंधित जोड़े एक-दूसरे के करीब आ सकें। बड़े युग्मित कॉर्पो (paired corpora) पर कंट्रास्टिव उद्देश्यों (contrastive objectives) द्वारा प्रशिक्षित, ये निरूपण (representations) क्रॉस-मोडल पुनर्प्राप्ति (cross-modal retrieval), शून्य-शॉट वर्गीकरण (zero-shot classification), और दृष्टि-भाषा तर्क (vision-language reasoning) को शक्ति प्रदान करते हैं।
पूरी विधि पढ़ें
यह खंड पढ़ने के लिए निःशुल्क खाते से साइन इन करें।
पद्धति मानचित्र
सम्बन्धित पद्धतियों का परिवेश — अन्वेषण हेतु किसी नोड का चयन करें।
स्रोत
- Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), pp. 8748–8763. PMLR. link ↗
- Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M., & Mikolov, T. (2013). DeViSE: A deep visual-semantic embedding model. In Advances in Neural Information Processing Systems (NeurIPS), Vol. 26. link ↗
इस पृष्ठ का उद्धरण कैसे दें
ScholarGate. (2026, June 3). Multimodal Sentence Embeddings (Joint Vision-Language Representation Learning). ScholarGate. https://scholargate.app/hi/deep-learning/multimodal-sentence-embeddings
कौन-सी पद्धति?
इस पद्धति को उसकी निकटतम सजातीय पद्धतियों के साथ रखकर उन्हें साथ-साथ पढ़ें — पुस्तकालय पुस्तकें मेज़ पर रख देता है; चुनाव आपका है।
- CLIPगहन अधिगम↔ तुलना करें