Machine learningDeep learning / NLP / CV
マルチモーダル畳み込みニューラルネットワーク
マルチモーダル畳み込みニューラルネットワーク(MM-CNN)は、画像とテキスト、あるいはビデオと音声などの2つ以上の入力モダリティを、専用の畳み込みブランチを通じて処理・融合し、各ソースからの補完的な信号を捉える共有表現を学習します。この融合された表現は、分類、回帰、あるいは検索などの下流タスクを駆動します。
手法の全文を読む
会員限定
ログイン無料アカウントでログインすると、このセクションを読めます。
手法マップ
関連する手法の近傍 — ノードを選択して探索できます。
出典
- Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., & Ng, A. Y. (2011). Multimodal deep learning. In Proceedings of the 28th International Conference on Machine Learning (ICML), 689–696. link ↗
- Zhang, Y., Yin, C., Li, Y., Li, D., & Tian, Q. (2020). Multimodal intelligence: Representation learning, information fusion, and applications. IEEE Journal of Selected Topics in Signal Processing, 14(3), 478–493. DOI: 10.1109/JSTSP.2020.2987728 ↗
このページの引用方法
ScholarGate. (2026, June 3). Multimodal Convolutional Neural Network (MM-CNN). ScholarGate. https://scholargate.app/ja/deep-learning/multimodal-convolutional-neural-network
どの手法を選ぶ?
この手法を最も近い類縁の手法と並べ、両者を見比べてください — ライブラリは本を机の上に並べるだけ。選ぶのはあなたです。
- 画像分類深層学習↔ 比較
- マルチモーダルBERTベース分類深層学習↔ 比較
- Multimodal Recurrent Neural Network深層学習↔ 比較
- マルチモーダル・トランスフォーマー深層学習↔ 比較
- 畳み込みニューラルネットワークを用いた転移学習深層学習↔ 比較