Machine learningDeep learning / NLP / CV
Multimodal Recurrent Neural Network (MM-RNN)
ビデオを見て、何が起こっているかを説明していると想像してください。あなたは同時に視覚フレームと音声を処理しながら、一連の単語を生成しています。マルチモーダルRNNは、視覚ストリームをCNNでエンコードし、音声またはテキストを独自のエンコーダーでエンコードし、それらを再帰ネットワークに供給して一度に1単語ずつ生成することで、これを模倣します。RNNの各ステップは、進化する隠れ状態(これまでのシーケンスの記憶)と融合されたマルチモーダルコンテキストにアクセスできるため、生成された出力はすべての入力モダリティと同時に一貫性を保ちます。
手法の全文を読む
会員限定
ログイン無料アカウントでログインすると、このセクションを読めます。
手法マップ
関連する手法の近傍 — ノードを選択して探索できます。
出典
- Vinyals, O., Toshev, A., Bengio, S., & Erhan, D. (2015). Show and Tell: A Neural Image Caption Generator. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 3156–3164. DOI: 10.1109/CVPR.2015.7298935 ↗
- Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., & Ng, A. Y. (2011). Multimodal Deep Learning. Proceedings of the 28th International Conference on Machine Learning (ICML), pp. 689–696. link ↗
このページの引用方法
ScholarGate. (2026, June 3). Multimodal Recurrent Neural Network (MM-RNN). ScholarGate. https://scholargate.app/ja/deep-learning/multimodal-recurrent-neural-network
どの手法を選ぶ?
この手法を最も近い類縁の手法と並べ、両者を見比べてください — ライブラリは本を机の上に並べるだけ。選ぶのはあなたです。
- Gated Recurrent Unit (GRU)深層学習↔ 比較
- Long Short-Term Memory (LSTM)深層学習↔ 比較
- マルチモーダルBERTベース分類深層学習↔ 比較
- マルチモーダル畳み込みニューラルネットワーク深層学習↔ 比較
- マルチモーダル・トランスフォーマー深層学習↔ 比較
- リカレントニューラルネットワーク (RNN)深層学習↔ 比較