Machine learningDeep learning / NLP / CV

Multimodala meningsinbäddningar

Multimodala meningsinbäddningar avbildar text och bilder (och ibland ljud eller video) till ett gemensamt kontinuerligt vektorrum, så att semantiskt relaterade par från olika modaliteter hamnar nära varandra. Tränade med kontrastiva mål på stora parade korpusar driver dessa representationer korsmodal hämtning, nollskottsklassificering och syn-språk-resonemang.

Öppna i MethodMindSnartVideoSnartLadda ner bildspel

Läs hela metoden

Endast för medlemmar

Logga in med ett kostnadsfritt konto för att läsa avsnittet.

Logga in

Metodkarta

Närområdet av besläktade metoder — välj en nod för att utforska.

Multimodala meningsinbäddningar

CLIP Multimodal Doc2Vec Multimodal grafnätverk Multimodal bildklassific…Multimodal Multilayer Pe…Multimodal Named Entity…Multimodal Question Answ…Multimodal RoBERTa-baser…Multimodal Topic Modeling Multimodal Word2Vec

Källor

Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), pp. 8748–8763. PMLR. link ↗
Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M., & Mikolov, T. (2013). DeViSE: A deep visual-semantic embedding model. In Advances in Neural Information Processing Systems (NeurIPS), Vol. 26. link ↗

Så citerar du den här sidan

ScholarGate. (2026, June 3). Multimodal Sentence Embeddings (Joint Vision-Language Representation Learning). ScholarGate. https://scholargate.app/sv/deep-learning/multimodal-sentence-embeddings

Vilken metod?

Placera den här metoden bredvid sina närmaste släktingar och läs dem sida vid sida — biblioteket lägger fram böckerna på bordet; valet är ditt.

CLIPDjupinlärning↔ jämför

Jämför sida vid sida →

Refereras av

Multimodal Doc2Vec Multimodal grafnätverk Multimodal bildklassificering Multimodal Multilayer Perceptron Multimodal Named Entity Recognition Multimodal Question Answering Multimodal RoBERTa-baserad klassificering Multimodal Topic Modeling Multimodal Word2Vec

Hittade du ett fel på sidan? Rapportera eller föreslå en rättelse →

Läs hela metoden

Metodkarta

Källor

Så citerar du den här sidan

Närliggande metoder

Vilken metod?

Refereras av