Penyematan Zarah Pelbagai Mod (Multimodal Sentence Embeddings)
Penyematan zarah pelbagai mod memetakan teks dan imej (dan kadang-kadang audio atau video) ke dalam ruang vektor berterusan yang dikongsi, supaya pasangan yang berkaitan secara semantik dari modaliti yang berbeza mendarat berdekatan. Dilatih dengan objektif kontrastif pada korpus berpasangan yang besar, perwakilan ini menggerakkan pengambilan rentas-modaliti, pengelasan sifar- شوت (zero-shot), dan penaakulan penglihatan-bahasa.
Baca kaedah sepenuhnya
Log masuk dengan akaun percuma untuk membaca bahagian ini.
Method map
The neighbourhood of related methods — select a node to explore.
Sumber
- Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), pp. 8748–8763. PMLR. link ↗
- Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M., & Mikolov, T. (2013). DeViSE: A deep visual-semantic embedding model. In Advances in Neural Information Processing Systems (NeurIPS), Vol. 26. link ↗
Cara memetik halaman ini
ScholarGate. (2026, June 3). Multimodal Sentence Embeddings (Joint Vision-Language Representation Learning). ScholarGate. https://scholargate.app/ms/deep-learning/multimodal-sentence-embeddings
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
Compare side by side →Dirujuk oleh
Terjumpa masalah pada halaman ini? Laporkan atau cadangkan pembetulan →