Machine learningDeep learning / NLP / CV

マルチモーダル Word2Vec

マルチモーダル Word2Vec は、古典的な Word2Vec フレームワークを、テキストの分布統計と並行して、知覚信号(通常は画像特徴量)に単語表現を接地させることによって拡張したものです。その結果、言語的な共起パターンと視覚的な意味の両方を捉える単語ベクトルが得られ、より豊かな意味的類似性判断と、純粋にテキストベースの埋め込みでは不十分な概念レベルのタスクでのパフォーマンス向上を可能にします。

MethodMindで開く近日公開動画近日公開Download slides

手法の全文を読む

会員限定

無料アカウントでログインすると、このセクションを読めます。

ログイン

Method map

The neighbourhood of related methods — select a node to explore.

出典

  1. Bruni, E., Tran, N.-K., & Baroni, M. (2014). Multimodal Distributional Semantics. Journal of Artificial Intelligence Research, 49, 1–47. DOI: 10.1613/jair.4135
  2. Mikolov, T., Sutskever, I., Chen, K., Corrado, G., & Dean, J. (2013). Distributed Representations of Words and Phrases and their Compositionality. Advances in Neural Information Processing Systems (NIPS), 26. link

このページの引用方法

ScholarGate. (2026, June 3). Multimodal Word2Vec (Cross-Modal Distributional Semantics). ScholarGate. https://scholargate.app/ja/deep-learning/multimodal-word2vec

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

この手法を参照する項目

ScholarGateMultimodal Word2Vec (Multimodal Word2Vec (Cross-Modal Distributional Semantics)). 2026-06-15に以下より取得 https://scholargate.app/ja/deep-learning/multimodal-word2vec · データセット: https://doi.org/10.5281/zenodo.20539026