Мултимодални изреченски вграждания
Мултимодалните изреченски вграждания картографират текст и изображения (а понякога и аудио или видео) в споделено непрекъснато векторно пространство, така че семантично свързани двойки от различни модалности да попадат близо една до друга. Обучени чрез контрастивни цели върху големи сдвоени корпуси, тези представяния захранват междумодално извличане, класификация без примери (zero-shot) и разсъждения между визуални и езикови данни.
Прочетете целия метод
Влезте с безплатен профил, за да прочетете този раздел.
Карта на методите
Обкръжението на сродните методи — изберете възел, за да го разгледате.
Източници
- Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), pp. 8748–8763. PMLR. link ↗
- Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M., & Mikolov, T. (2013). DeViSE: A deep visual-semantic embedding model. In Advances in Neural Information Processing Systems (NeurIPS), Vol. 26. link ↗
Как да цитирате тази страница
ScholarGate. (2026, June 3). Multimodal Sentence Embeddings (Joint Vision-Language Representation Learning). ScholarGate. https://scholargate.app/bg/deep-learning/multimodal-sentence-embeddings
Кой метод?
Поставете този метод до най-близките му сродни методи и ги четете едно до друго — библиотеката полага книгите на масата; изборът е ваш.
- CLIPДълбоко обучение↔ сравняване
Цитиран в
Забелязахте ли проблем на тази страница? Съобщете или предложете поправка →