ScholarGate
Assistent
Machine learningDeep learning / NLP / CV

Multimodala meningsinbäddningar

Multimodala meningsinbäddningar avbildar text och bilder (och ibland ljud eller video) till ett gemensamt kontinuerligt vektorrum, så att semantiskt relaterade par från olika modaliteter hamnar nära varandra. Tränade med kontrastiva mål på stora parade korpusar driver dessa representationer korsmodal hämtning, nollskottsklassificering och syn-språk-resonemang.

Öppna i MethodMindSnartVideoSnartLadda ner bildspel

Läs hela metoden

Endast för medlemmar

Logga in med ett kostnadsfritt konto för att läsa avsnittet.

Logga in

Metodkarta

Närområdet av besläktade metoder — välj en nod för att utforska.

Källor

  1. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), pp. 8748–8763. PMLR. link
  2. Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M., & Mikolov, T. (2013). DeViSE: A deep visual-semantic embedding model. In Advances in Neural Information Processing Systems (NeurIPS), Vol. 26. link

Så citerar du den här sidan

ScholarGate. (2026, June 3). Multimodal Sentence Embeddings (Joint Vision-Language Representation Learning). ScholarGate. https://scholargate.app/sv/deep-learning/multimodal-sentence-embeddings

Vilken metod?

Placera den här metoden bredvid sina närmaste släktingar och läs dem sida vid sida — biblioteket lägger fram böckerna på bordet; valet är ditt.

Jämför sida vid sida

Refereras av

ScholarGateMultimodal Sentence Embeddings (Multimodal Sentence Embeddings (Joint Vision-Language Representation Learning)). Hämtad 2026-06-15 från https://scholargate.app/sv/deep-learning/multimodal-sentence-embeddings · Datamängd: https://doi.org/10.5281/zenodo.20539026