Machine learningDeep learning / NLP / CV

Multimodal Recurrent Neural Network (MM-RNN)

ビデオを見て、何が起こっているかを説明していると想像してください。あなたは同時に視覚フレームと音声を処理しながら、一連の単語を生成しています。マルチモーダルRNNは、視覚ストリームをCNNでエンコードし、音声またはテキストを独自のエンコーダーでエンコードし、それらを再帰ネットワークに供給して一度に1単語ずつ生成することで、これを模倣します。RNNの各ステップは、進化する隠れ状態（これまでのシーケンスの記憶）と融合されたマルチモーダルコンテキストにアクセスできるため、生成された出力はすべての入力モダリティと同時に一貫性を保ちます。

MethodMindで開く近日公開動画近日公開スライドをダウンロード

手法の全文を読む

会員限定

無料アカウントでログインすると、このセクションを読めます。

ログイン

手法マップ

関連する手法の近傍 — ノードを選択して探索できます。

Multimodal Recurrent Neural Network

Gated Recurrent Unit (GR…Long Short-Term Memory (…マルチモーダルBERTベース分類マルチモーダル畳み込みニューラルネットワークマルチモーダル・トランスフォーマーリカレントニューラルネットワーク (RNN)マルチモーダルGRU

出典

Vinyals, O., Toshev, A., Bengio, S., & Erhan, D. (2015). Show and Tell: A Neural Image Caption Generator. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 3156–3164. DOI: 10.1109/CVPR.2015.7298935 ↗
Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., & Ng, A. Y. (2011). Multimodal Deep Learning. Proceedings of the 28th International Conference on Machine Learning (ICML), pp. 689–696. link ↗

このページの引用方法

ScholarGate. (2026, June 3). Multimodal Recurrent Neural Network (MM-RNN). ScholarGate. https://scholargate.app/ja/deep-learning/multimodal-recurrent-neural-network

どの手法を選ぶ？

この手法を最も近い類縁の手法と並べ、両者を見比べてください — ライブラリは本を机の上に並べるだけ。選ぶのはあなたです。

並べて比較する →

この手法を参照する項目

マルチモーダル畳み込みニューラルネットワークマルチモーダルGRU

このページに誤りを見つけましたか?報告・修正提案 →