Embëdime të frazave multimodalë
Embëdime të frazave multimodalë i hartëzojnë tekstin dhe imazhet (dhe ndonjëherë audion ose videon) në një hapësirë të përbashkët vektoriale të vazhdueshme, në mënyrë që çiftet me lidhje semantike nga modalitete të ndryshme të bien afër. Të trajnuara me objektiva kontrastivë mbi korpusë të mëdhenj të çiftëzuar, këto përfaqësime fuqizojnë kërkimin ndër-modal, klasifikimin zero-shot dhe arsyetimin vizual-gjuhësor.
Lexoni metodën e plotë
Hyni me një llogari falas për ta lexuar këtë seksion.
Harta e metodave
Lagjja e metodave të lidhura — zgjidhni një nyje për të eksploruar.
Burimet
- Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), pp. 8748–8763. PMLR. link ↗
- Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M., & Mikolov, T. (2013). DeViSE: A deep visual-semantic embedding model. In Advances in Neural Information Processing Systems (NeurIPS), Vol. 26. link ↗
Si ta citoni këtë faqe
ScholarGate. (2026, June 3). Multimodal Sentence Embeddings (Joint Vision-Language Representation Learning). ScholarGate. https://scholargate.app/sq/deep-learning/multimodal-sentence-embeddings
Cila metodë?
Vendoseni këtë metodë pranë të afërmeve të saj më të ngushta dhe lexojini krah për krah — biblioteka i shtron librat mbi tryezë; zgjedhja është e juaja.
Krahasoni krah për krah →Cituar nga
Vutë re një problem në këtë faqe? Raportojeni ose sugjeroni një korrigjim →