Multimodala meningsinbäddningar
Multimodala meningsinbäddningar avbildar text och bilder (och ibland ljud eller video) till ett gemensamt kontinuerligt vektorrum, så att semantiskt relaterade par från olika modaliteter hamnar nära varandra. Tränade med kontrastiva mål på stora parade korpusar driver dessa representationer korsmodal hämtning, nollskottsklassificering och syn-språk-resonemang.
Läs hela metoden
Logga in med ett kostnadsfritt konto för att läsa avsnittet.
Metodkarta
Närområdet av besläktade metoder — välj en nod för att utforska.
Källor
- Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), pp. 8748–8763. PMLR. link ↗
- Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M., & Mikolov, T. (2013). DeViSE: A deep visual-semantic embedding model. In Advances in Neural Information Processing Systems (NeurIPS), Vol. 26. link ↗
Så citerar du den här sidan
ScholarGate. (2026, June 3). Multimodal Sentence Embeddings (Joint Vision-Language Representation Learning). ScholarGate. https://scholargate.app/sv/deep-learning/multimodal-sentence-embeddings
Vilken metod?
Placera den här metoden bredvid sina närmaste släktingar och läs dem sida vid sida — biblioteket lägger fram böckerna på bordet; valet är ditt.
Jämför sida vid sida →Refereras av
Hittade du ett fel på sidan? Rapportera eller föreslå en rättelse →