Machine learningDeep learning / NLP / CV

Multimodalne ugrađene rečenice

Multimodalne ugrađene rečenice mapiraju tekst i slike (a ponekad i zvuk ili video) u zajednički kontinuirani vektorski prostor, tako da se semantički srodni parovi iz različitih modaliteta nalaze blizu. Obučene kontrastivnim ciljevima na velikim uparenim korpusima, ove reprezentacije pokreću unakrsno-modalno pretraživanje, klasifikaciju nultog snimka i rezonovanje jezik-vid.

Otvorite u MethodMindUskoroVideoUskoroDownload slides

Pročitajte celu metodu

Samo za članove

Prijavite se besplatnim nalogom da biste pročitali ovaj odeljak.

Prijavite se

Method map

The neighbourhood of related methods — select a node to explore.

Multimodalne ugrađene rečenice

CLIP Multimodalni Doc2Vec Multimodalni grafički ne…Multimodal Image Classif…Multimodalni perceptron…Multimodal Named Entity…Multimodalno postavljanj…Multimodalna RoBERTa kla…Multimodalno modeliranje…Multimodal Word2Vec

Izvori

Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), pp. 8748–8763. PMLR. link ↗
Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M., & Mikolov, T. (2013). DeViSE: A deep visual-semantic embedding model. In Advances in Neural Information Processing Systems (NeurIPS), Vol. 26. link ↗

Kako citirati ovu stranicu

ScholarGate. (2026, June 3). Multimodal Sentence Embeddings (Joint Vision-Language Representation Learning). ScholarGate. https://scholargate.app/sr/deep-learning/multimodal-sentence-embeddings

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

CLIPDuboko učenje↔ compare

Compare side by side →

Citirana u

Multimodalni Doc2Vec Multimodalni grafički neuronski mrežni Multimodal Image Classification Multimodalni perceptron sa više slojeva Multimodal Named Entity Recognition Multimodalno postavljanje pitanja Multimodalna RoBERTa klasifikacija Multimodalno modeliranje tema Multimodal Word2Vec

Uočili ste grešku na ovoj stranici? Prijavite je ili predložite ispravku →

Pročitajte celu metodu

Method map

Izvori

Kako citirati ovu stranicu

Srodne metode

Which method?

Citirana u