Machine learningDeep learning / NLP / CV
שיכוני משפטים מולטי-מודאליים
שיכוני משפטים מולטי-מודאליים ממפים טקסט ותמונות (ולעיתים אודיו או וידאו) למרחב וקטורי רציף משותף, כך שזוגות בעלי משמעות סמנטית דומה משני מודאליות שונות ימוקמו קרוב זה לזה. מודלים אלו, שאומנו באמצעות מטרות קונטרסטיביות על קורפוסים גדולים של זוגות נתונים, משמשים להעצמת אחזור בין-מודאלי, סיווג אפס-יריות (zero-shot) והיסק ראייה-שפה.
קראו את השיטה במלואה
לחברים בלבד
התחברותהתחברו עם חשבון חינמי כדי לקרוא חלק זה.
מפת שיטות
סביבת השיטות הקרובות — בחרו צומת כדי לחקור.
מקורות
- Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), pp. 8748–8763. PMLR. link ↗
- Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M., & Mikolov, T. (2013). DeViSE: A deep visual-semantic embedding model. In Advances in Neural Information Processing Systems (NeurIPS), Vol. 26. link ↗
איך לצטט עמוד זה
ScholarGate. (2026, June 3). Multimodal Sentence Embeddings (Joint Vision-Language Representation Learning). ScholarGate. https://scholargate.app/he/deep-learning/multimodal-sentence-embeddings
איזו שיטה?
הציבו שיטה זו לצד קרובותיה הקרובות וקראו אותן זו לצד זו — הספרייה מניחה את הספרים על השולחן; הבחירה בידיכם.
השוואה זה לצד זה →