ScholarGate
Asisten
Machine learningDeep learning / NLP / CV

Embedding Kalimat Multimodal

Embedding kalimat multimodal memetakan teks dan gambar (dan terkadang audio atau video) ke dalam ruang vektor kontinu bersama, sehingga pasangan yang berhubungan secara semantik dari modalitas yang berbeda berada berdekatan. Dilatih dengan tujuan kontrastif pada korpus berpasangan yang besar, representasi ini memberdayakan pengambilan lintas-modal, klasifikasi zero-shot, dan penalaran visi-bahasa.

Buka di MethodMindSegeraVideoSegeraUnduh salindia

Baca metode selengkapnya

Khusus anggota

Masuk dengan akun gratis untuk membaca bagian ini.

Masuk

Peta metode

Lingkup metode terkait — pilih sebuah simpul untuk menjelajah.

Sumber

  1. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), pp. 8748–8763. PMLR. link
  2. Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M., & Mikolov, T. (2013). DeViSE: A deep visual-semantic embedding model. In Advances in Neural Information Processing Systems (NeurIPS), Vol. 26. link

Cara menyitasi halaman ini

ScholarGate. (2026, June 3). Multimodal Sentence Embeddings (Joint Vision-Language Representation Learning). ScholarGate. https://scholargate.app/id/deep-learning/multimodal-sentence-embeddings

Metode yang mana?

Letakkan metode ini berdampingan dengan kerabat terdekatnya dan baca secara bersisian — pustaka menata bukunya di atas meja; pilihan ada di tangan Anda.

Bandingkan berdampingan

Dirujuk oleh

ScholarGateMultimodal Sentence Embeddings (Multimodal Sentence Embeddings (Joint Vision-Language Representation Learning)). Diakses 2026-06-15 dari https://scholargate.app/id/deep-learning/multimodal-sentence-embeddings · Set data: https://doi.org/10.5281/zenodo.20539026