Multimodaal Recurrent Neural Network
Een Multimodaal Recurrent Neural Network combineert inputs van twee of meer datamodaliteiten — zoals beelden, tekst en audio — binnen een recurrent sequentieverwerkingskader. Het codeert elke modaliteit afzonderlijk, voegt de representaties samen, en verwerkt vervolgens het gecombineerde signaal via recurrente eenheden (RNN, LSTM of GRU) om sequentiële outputs te genereren of te classificeren. Dit ontwerp maakte het een fundamentele benadering in beeldcaptioning, video-beschrijving en audio-visuele spraakherkenning.
Lees de volledige methode
Log in met een gratis account om dit onderdeel te lezen.
Method map
The neighbourhood of related methods — select a node to explore.
Bronnen
- Vinyals, O., Toshev, A., Bengio, S., & Erhan, D. (2015). Show and Tell: A Neural Image Caption Generator. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 3156–3164. DOI: 10.1109/CVPR.2015.7298935 ↗
- Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., & Ng, A. Y. (2011). Multimodal Deep Learning. Proceedings of the 28th International Conference on Machine Learning (ICML), pp. 689–696. link ↗
Deze pagina citeren
ScholarGate. (2026, June 3). Multimodal Recurrent Neural Network (MM-RNN). ScholarGate. https://scholargate.app/nl/deep-learning/multimodal-recurrent-neural-network
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Gated Recurrent Unit (GRU)Deep learning↔ compare
- Long Short-Term Memory (LSTM)Deep learning↔ compare
- Multimodale BERT-gebaseerde classificatieDeep learning↔ compare
- Multimodaal Convolutie Neuraal NetwerkDeep learning↔ compare
- Multimodale TransformerDeep learning↔ compare
- Recurrent Neuraal NetwerkDeep learning↔ compare
Geciteerd door
Een fout op deze pagina gezien? Meld het of stel een correctie voor →