ScholarGate
Asisten
Machine learningDeep learning / NLP / CV

Jaringan Saraf Berulang Multimodal

Jaringan Saraf Berulang (Recurrent Neural Network/RNN) Multimodal menggabungkan masukan dari dua atau lebih modalitas data — seperti gambar, teks, dan audio — dalam kerangka pemrosesan urutan berulang. Ia mengkodekan setiap modalitas secara terpisah, menggabungkan representasi, dan kemudian memproses sinyal gabungan melalui unit berulang (RNN, LSTM, atau GRU) untuk menghasilkan atau mengklasifikasikan keluaran berurutan. Desain ini menjadikannya pendekatan fundamental dalam pemberian keterangan gambar (image captioning), deskripsi video, dan pengenalan ucapan audio-visual.

Buka di MethodMindSegeraVideoSegeraDownload slides

Baca metode selengkapnya

Khusus anggota

Masuk dengan akun gratis untuk membaca bagian ini.

Masuk

Method map

The neighbourhood of related methods — select a node to explore.

Sumber

  1. Vinyals, O., Toshev, A., Bengio, S., & Erhan, D. (2015). Show and Tell: A Neural Image Caption Generator. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 3156–3164. DOI: 10.1109/CVPR.2015.7298935
  2. Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., & Ng, A. Y. (2011). Multimodal Deep Learning. Proceedings of the 28th International Conference on Machine Learning (ICML), pp. 689–696. link

Cara menyitasi halaman ini

ScholarGate. (2026, June 3). Multimodal Recurrent Neural Network (MM-RNN). ScholarGate. https://scholargate.app/id/deep-learning/multimodal-recurrent-neural-network

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Dirujuk oleh

ScholarGateMultimodal Recurrent Neural Network (Multimodal Recurrent Neural Network (MM-RNN)). Diakses 2026-06-15 dari https://scholargate.app/id/deep-learning/multimodal-recurrent-neural-network · Set data: https://doi.org/10.5281/zenodo.20539026