Jaringan Saraf Berulang Multimodal
Jaringan Saraf Berulang (Recurrent Neural Network/RNN) Multimodal menggabungkan masukan dari dua atau lebih modalitas data — seperti gambar, teks, dan audio — dalam kerangka pemrosesan urutan berulang. Ia mengkodekan setiap modalitas secara terpisah, menggabungkan representasi, dan kemudian memproses sinyal gabungan melalui unit berulang (RNN, LSTM, atau GRU) untuk menghasilkan atau mengklasifikasikan keluaran berurutan. Desain ini menjadikannya pendekatan fundamental dalam pemberian keterangan gambar (image captioning), deskripsi video, dan pengenalan ucapan audio-visual.
Baca metode selengkapnya
Masuk dengan akun gratis untuk membaca bagian ini.
Method map
The neighbourhood of related methods — select a node to explore.
Sumber
- Vinyals, O., Toshev, A., Bengio, S., & Erhan, D. (2015). Show and Tell: A Neural Image Caption Generator. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 3156–3164. DOI: 10.1109/CVPR.2015.7298935 ↗
- Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., & Ng, A. Y. (2011). Multimodal Deep Learning. Proceedings of the 28th International Conference on Machine Learning (ICML), pp. 689–696. link ↗
Cara menyitasi halaman ini
ScholarGate. (2026, June 3). Multimodal Recurrent Neural Network (MM-RNN). ScholarGate. https://scholargate.app/id/deep-learning/multimodal-recurrent-neural-network
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Unit Berulang Bergerbang (GRU)Pembelajaran Mendalam↔ compare
- Long Short-Term Memory (LSTM)Pembelajaran Mendalam↔ compare
- Klasifikasi Berbasis BERT MultimodalPembelajaran Mendalam↔ compare
- Jaringan Saraf Konvolusional MultimodalPembelajaran Mendalam↔ compare
- Transformer MultimodalPembelajaran Mendalam↔ compare
- Jaringan Saraf Berulang (Recurrent Neural Network - RNN)Pembelajaran Mendalam↔ compare
Dirujuk oleh
Menemukan masalah di halaman ini? Laporkan atau usulkan perbaikan →