ScholarGate
Asistenti
Machine learningDeep learning / NLP / CV

Embëdime të frazave multimodalë

Embëdime të frazave multimodalë i hartëzojnë tekstin dhe imazhet (dhe ndonjëherë audion ose videon) në një hapësirë të përbashkët vektoriale të vazhdueshme, në mënyrë që çiftet me lidhje semantike nga modalitete të ndryshme të bien afër. Të trajnuara me objektiva kontrastivë mbi korpusë të mëdhenj të çiftëzuar, këto përfaqësime fuqizojnë kërkimin ndër-modal, klasifikimin zero-shot dhe arsyetimin vizual-gjuhësor.

Hapeni në MethodMindSë shpejtiVideoSë shpejtiShkarko diapozitivat

Lexoni metodën e plotë

Vetëm për anëtarët

Hyni me një llogari falas për ta lexuar këtë seksion.

Hyni

Harta e metodave

Lagjja e metodave të lidhura — zgjidhni një nyje për të eksploruar.

Burimet

  1. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), pp. 8748–8763. PMLR. link
  2. Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M., & Mikolov, T. (2013). DeViSE: A deep visual-semantic embedding model. In Advances in Neural Information Processing Systems (NeurIPS), Vol. 26. link

Si ta citoni këtë faqe

ScholarGate. (2026, June 3). Multimodal Sentence Embeddings (Joint Vision-Language Representation Learning). ScholarGate. https://scholargate.app/sq/deep-learning/multimodal-sentence-embeddings

Cila metodë?

Vendoseni këtë metodë pranë të afërmeve të saj më të ngushta dhe lexojini krah për krah — biblioteka i shtron librat mbi tryezë; zgjedhja është e juaja.

Krahasoni krah për krah

Cituar nga

ScholarGateMultimodal Sentence Embeddings (Multimodal Sentence Embeddings (Joint Vision-Language Representation Learning)). Marrë më 2026-06-15 nga https://scholargate.app/sq/deep-learning/multimodal-sentence-embeddings · Seti i të dhënave: https://doi.org/10.5281/zenodo.20539026