ScholarGate
Assistent
Machine learningDeep learning / NLP / CV

Multimodaal Recurrent Neural Network

Een Multimodaal Recurrent Neural Network combineert inputs van twee of meer datamodaliteiten — zoals beelden, tekst en audio — binnen een recurrent sequentieverwerkingskader. Het codeert elke modaliteit afzonderlijk, voegt de representaties samen, en verwerkt vervolgens het gecombineerde signaal via recurrente eenheden (RNN, LSTM of GRU) om sequentiële outputs te genereren of te classificeren. Dit ontwerp maakte het een fundamentele benadering in beeldcaptioning, video-beschrijving en audio-visuele spraakherkenning.

Openen in MethodMindBinnenkortVideoBinnenkortDownload slides

Lees de volledige methode

Alleen voor leden

Log in met een gratis account om dit onderdeel te lezen.

Inloggen

Method map

The neighbourhood of related methods — select a node to explore.

Bronnen

  1. Vinyals, O., Toshev, A., Bengio, S., & Erhan, D. (2015). Show and Tell: A Neural Image Caption Generator. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 3156–3164. DOI: 10.1109/CVPR.2015.7298935
  2. Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., & Ng, A. Y. (2011). Multimodal Deep Learning. Proceedings of the 28th International Conference on Machine Learning (ICML), pp. 689–696. link

Deze pagina citeren

ScholarGate. (2026, June 3). Multimodal Recurrent Neural Network (MM-RNN). ScholarGate. https://scholargate.app/nl/deep-learning/multimodal-recurrent-neural-network

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Geciteerd door

ScholarGateMultimodal Recurrent Neural Network (Multimodal Recurrent Neural Network (MM-RNN)). Geraadpleegd op 2026-06-15 via https://scholargate.app/nl/deep-learning/multimodal-recurrent-neural-network · Gegevensset: https://doi.org/10.5281/zenodo.20539026