Machine learningDeep learning / NLP / CV

Multimodaalinen rekurrentti neuroverkko

Multimodaalinen rekurrentti neuroverkko yhdistää syötteitä kahdesta tai useammasta datamodaalisuudesta – kuten kuvista, tekstistä ja äänestä – rekurrenttiin sekvenssinkäsittelykehykseen. Se koodaa kunkin modaalisuuden erikseen, yhdistää esitykset ja käsittelee sitten yhdistetyn signaalin rekurrenttien yksiköiden (RNN, LSTM tai GRU) avulla generoidakseen tai luokitellakseen sekventiaalisia tulosteita. Tämä rakenne teki siitä perustavanlaatuisen lähestymistavan kuvatekstien luomisessa, videokuvauksissa ja audiovisuaalisessa puheentunnistuksessa.

Avaa sovelluksessa MethodMindTulossaVideoTulossaDownload slides

Lue koko menetelmä

Vain jäsenille

Kirjaudu sisään maksuttomalla tilillä lukeaksesi tämän osion.

Kirjaudu sisään

Method map

The neighbourhood of related methods — select a node to explore.

Lähteet

  1. Vinyals, O., Toshev, A., Bengio, S., & Erhan, D. (2015). Show and Tell: A Neural Image Caption Generator. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 3156–3164. DOI: 10.1109/CVPR.2015.7298935
  2. Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., & Ng, A. Y. (2011). Multimodal Deep Learning. Proceedings of the 28th International Conference on Machine Learning (ICML), pp. 689–696. link

Näin viittaat tähän sivuun

ScholarGate. (2026, June 3). Multimodal Recurrent Neural Network (MM-RNN). ScholarGate. https://scholargate.app/fi/deep-learning/multimodal-recurrent-neural-network

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Tähän viittaavat

ScholarGateMultimodal Recurrent Neural Network (Multimodal Recurrent Neural Network (MM-RNN)). Haettu 2026-06-15 osoitteesta https://scholargate.app/fi/deep-learning/multimodal-recurrent-neural-network · Aineisto: https://doi.org/10.5281/zenodo.20539026