ScholarGate
Assistent
Machine learningDeep learning / NLP / CV

Multimodal Recurrent Neural Network

Ett Multimodal Recurrent Neural Network kombinerar indata från två eller flera datamodaliteter — såsom bilder, text och ljud — inom ett ramverk för sekvensbehandling med rekurrenta nätverk. Det kodar varje modalitet separat, smälter samman representationerna och bearbetar sedan den kombinerade signalen genom rekurrenta enheter (RNN, LSTM eller GRU) för att generera eller klassificera sekventiella utdata. Denna design gjorde det till ett grundläggande angreppssätt inom bildtextning, videobeskrivning och ljud-visuell taligenkänning.

Öppna i MethodMindSnartVideoSnartDownload slides

Läs hela metoden

Endast för medlemmar

Logga in med ett kostnadsfritt konto för att läsa avsnittet.

Logga in

Method map

The neighbourhood of related methods — select a node to explore.

Källor

  1. Vinyals, O., Toshev, A., Bengio, S., & Erhan, D. (2015). Show and Tell: A Neural Image Caption Generator. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 3156–3164. DOI: 10.1109/CVPR.2015.7298935
  2. Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., & Ng, A. Y. (2011). Multimodal Deep Learning. Proceedings of the 28th International Conference on Machine Learning (ICML), pp. 689–696. link

Så citerar du den här sidan

ScholarGate. (2026, June 3). Multimodal Recurrent Neural Network (MM-RNN). ScholarGate. https://scholargate.app/sv/deep-learning/multimodal-recurrent-neural-network

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Refereras av

ScholarGateMultimodal Recurrent Neural Network (Multimodal Recurrent Neural Network (MM-RNN)). Hämtad 2026-06-15 från https://scholargate.app/sv/deep-learning/multimodal-recurrent-neural-network · Datamängd: https://doi.org/10.5281/zenodo.20539026