Machine learningDeep learning / NLP / CV

マルチモーダル文埋め込み

マルチモーダル文埋め込みは、テキストと画像を(場合によっては音声や動画も)共有された連続ベクトル空間にマッピングし、異なるモダリティからの意味的に関連するペアが近くに配置されるようにします。大規模なペア化コーパス上で対照学習目的関数を用いて学習されたこれらの表現は、クロスモーダル検索、ゼロショット分類、および視覚言語推論を可能にします。

MethodMindで開く近日公開動画近日公開Download slides

手法の全文を読む

会員限定

無料アカウントでログインすると、このセクションを読めます。

ログイン

Method map

The neighbourhood of related methods — select a node to explore.

出典

  1. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), pp. 8748–8763. PMLR. link
  2. Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M., & Mikolov, T. (2013). DeViSE: A deep visual-semantic embedding model. In Advances in Neural Information Processing Systems (NeurIPS), Vol. 26. link

このページの引用方法

ScholarGate. (2026, June 3). Multimodal Sentence Embeddings (Joint Vision-Language Representation Learning). ScholarGate. https://scholargate.app/ja/deep-learning/multimodal-sentence-embeddings

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

この手法を参照する項目

ScholarGateMultimodal Sentence Embeddings (Multimodal Sentence Embeddings (Joint Vision-Language Representation Learning)). 2026-06-15に以下より取得 https://scholargate.app/ja/deep-learning/multimodal-sentence-embeddings · データセット: https://doi.org/10.5281/zenodo.20539026