Embedding Kalimat Multimodal
Embedding kalimat multimodal memetakan teks dan gambar (dan terkadang audio atau video) ke dalam ruang vektor kontinu bersama, sehingga pasangan yang berhubungan secara semantik dari modalitas yang berbeda berada berdekatan. Dilatih dengan tujuan kontrastif pada korpus berpasangan yang besar, representasi ini memberdayakan pengambilan lintas-modal, klasifikasi zero-shot, dan penalaran visi-bahasa.
Baca metode selengkapnya
Masuk dengan akun gratis untuk membaca bagian ini.
Peta metode
Lingkup metode terkait — pilih sebuah simpul untuk menjelajah.
Sumber
- Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), pp. 8748–8763. PMLR. link ↗
- Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M., & Mikolov, T. (2013). DeViSE: A deep visual-semantic embedding model. In Advances in Neural Information Processing Systems (NeurIPS), Vol. 26. link ↗
Cara menyitasi halaman ini
ScholarGate. (2026, June 3). Multimodal Sentence Embeddings (Joint Vision-Language Representation Learning). ScholarGate. https://scholargate.app/id/deep-learning/multimodal-sentence-embeddings
Metode yang mana?
Letakkan metode ini berdampingan dengan kerabat terdekatnya dan baca secara bersisian — pustaka menata bukunya di atas meja; pilihan ada di tangan Anda.
- CLIPPembelajaran Mendalam↔ bandingkan
Dirujuk oleh
Menemukan masalah di halaman ini? Laporkan atau usulkan perbaikan →