ScholarGate
Асистент
Machine learningDeep learning / NLP / CV

Мультимодальні вбудовування речень

Мультимодальні вбудовування речень відображають текст та зображення (а іноді аудіо чи відео) у спільний неперервний векторний простір, так що семантично пов'язані пари з різних модальностей опиняються близько одна до одної. Навчені за допомогою контрастивних цілей на великих парних корпусах, ці представлення забезпечують пошук між модальностями, класифікацію в режимі нульового пострілу та міркування щодо зорової мови.

Відкрити у MethodMindНезабаромВідеоНезабаромЗавантажити слайди

Читати метод повністю

Лише для учасників

Увійдіть із безкоштовним обліковим записом, щоб прочитати цей розділ.

Увійти

Карта методів

Околиця споріднених методів — виберіть вузол, щоб дослідити.

Джерела

  1. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), pp. 8748–8763. PMLR. link
  2. Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M., & Mikolov, T. (2013). DeViSE: A deep visual-semantic embedding model. In Advances in Neural Information Processing Systems (NeurIPS), Vol. 26. link

Як цитувати цю сторінку

ScholarGate. (2026, June 3). Multimodal Sentence Embeddings (Joint Vision-Language Representation Learning). ScholarGate. https://scholargate.app/uk/deep-learning/multimodal-sentence-embeddings

Який метод?

Поставте цей метод поруч із його найближчими спорідненими й читайте їх пліч-о-пліч — бібліотека викладає книги на стіл; вибір за вами.

Порівняти поруч

Згадується в

ScholarGateMultimodal Sentence Embeddings (Multimodal Sentence Embeddings (Joint Vision-Language Representation Learning)). Отримано 2026-06-15 з https://scholargate.app/uk/deep-learning/multimodal-sentence-embeddings · Набір даних: https://doi.org/10.5281/zenodo.20539026