Machine learningDeep learning / NLP / CV

Multimodal Sentence Embeddings (Joint Vision-Language Representation Learning)

Imagineu un diccionari on cada paraula es pogués cercar mostrant una imatge en lloc d'escriure-la. Els embeddings multimodals de frases construeixen exactament aquest tipus d'espai compartit: un codificador de llenguatge tradueix les frases en vectors, un codificador de visió tradueix les imatges en vectors, i un objectiu d'entrenament contrastiu apropa els parells coincidents mentre allunya els parells no coincidents. Un cop entrenat, una imatge de consulta i un subtítol coincident aterren a prop en l'espai, fins i tot si el model mai no ha vist aquest parell exacte abans, cosa que permet una potent cerca cross-modal i una generalització zero-shot.

Obre a MethodMindAviatVídeoAviatDownload slides

Llegeix el mètode complet

Només per a membres

Inicia la sessió amb un compte gratuït per llegir aquesta secció.

Inicia la sessió

Method map

The neighbourhood of related methods — select a node to explore.

Fonts

  1. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), pp. 8748–8763. PMLR. link
  2. Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M., & Mikolov, T. (2013). DeViSE: A deep visual-semantic embedding model. In Advances in Neural Information Processing Systems (NeurIPS), Vol. 26. link

Com citar aquesta pàgina

ScholarGate. (2026, June 3). Multimodal Sentence Embeddings (Joint Vision-Language Representation Learning). ScholarGate. https://scholargate.app/ca/deep-learning/multimodal-sentence-embeddings

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Citat per

ScholarGateMultimodal Sentence Embeddings (Multimodal Sentence Embeddings (Joint Vision-Language Representation Learning)). Recuperat el 2026-06-15 de https://scholargate.app/ca/deep-learning/multimodal-sentence-embeddings · Conjunt de dades: https://doi.org/10.5281/zenodo.20539026