ScholarGate
Асистент
Machine learningDeep learning / NLP / CV

Мултимодални изреченски вграждания

Мултимодалните изреченски вграждания картографират текст и изображения (а понякога и аудио или видео) в споделено непрекъснато векторно пространство, така че семантично свързани двойки от различни модалности да попадат близо една до друга. Обучени чрез контрастивни цели върху големи сдвоени корпуси, тези представяния захранват междумодално извличане, класификация без примери (zero-shot) и разсъждения между визуални и езикови данни.

Отворете в MethodMindСкороВидеоСкороИзтегляне на слайдове

Прочетете целия метод

Само за членове

Влезте с безплатен профил, за да прочетете този раздел.

Вход

Карта на методите

Обкръжението на сродните методи — изберете възел, за да го разгледате.

Източници

  1. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), pp. 8748–8763. PMLR. link
  2. Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M., & Mikolov, T. (2013). DeViSE: A deep visual-semantic embedding model. In Advances in Neural Information Processing Systems (NeurIPS), Vol. 26. link

Как да цитирате тази страница

ScholarGate. (2026, June 3). Multimodal Sentence Embeddings (Joint Vision-Language Representation Learning). ScholarGate. https://scholargate.app/bg/deep-learning/multimodal-sentence-embeddings

Кой метод?

Поставете този метод до най-близките му сродни методи и ги четете едно до друго — библиотеката полага книгите на масата; изборът е ваш.

Сравняване едно до друго

Цитиран в

ScholarGateMultimodal Sentence Embeddings (Multimodal Sentence Embeddings (Joint Vision-Language Representation Learning)). Извлечено на 2026-06-15 от https://scholargate.app/bg/deep-learning/multimodal-sentence-embeddings · Набор от данни: https://doi.org/10.5281/zenodo.20539026