Mạng nơ-ron hồi quy đa phương thức
Mạng nơ-ron hồi quy đa phương thức (Multimodal Recurrent Neural Network) kết hợp đầu vào từ hai hoặc nhiều phương thức dữ liệu — như hình ảnh, văn bản và âm thanh — trong một khuôn khổ xử lý chuỗi hồi quy. Nó mã hóa từng phương thức một cách riêng biệt, hợp nhất các biểu diễn, và sau đó xử lý tín hiệu kết hợp thông qua các đơn vị hồi quy (RNN, LSTM, hoặc GRU) để tạo ra hoặc phân loại các đầu ra tuần tự. Thiết kế này đã làm cho nó trở thành một phương pháp nền tảng trong việc tạo chú thích ảnh, mô tả video và nhận dạng giọng nói nghe-nhìn.
Đọc toàn bộ phương pháp
Đăng nhập bằng tài khoản miễn phí để đọc phần này.
Bản đồ phương pháp
Lân cận của các phương pháp liên quan — chọn một nút để khám phá.
Nguồn tài liệu
- Vinyals, O., Toshev, A., Bengio, S., & Erhan, D. (2015). Show and Tell: A Neural Image Caption Generator. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 3156–3164. DOI: 10.1109/CVPR.2015.7298935 ↗
- Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., & Ng, A. Y. (2011). Multimodal Deep Learning. Proceedings of the 28th International Conference on Machine Learning (ICML), pp. 689–696. link ↗
Cách trích dẫn trang này
ScholarGate. (2026, June 3). Multimodal Recurrent Neural Network (MM-RNN). ScholarGate. https://scholargate.app/vi/deep-learning/multimodal-recurrent-neural-network
Phương pháp nào?
Đặt phương pháp này bên cạnh những phương pháp gần gũi nhất với nó và đọc chúng song song — thư viện bày sách lên bàn; lựa chọn là của bạn.
- Cổng Lặp Lại Có Cổng (GRU)Học sâu↔ so sánh
- Mạng bộ nhớ dài-ngắn hạn (LSTM)Học sâu↔ so sánh
- Phân loại dựa trên BERT đa phương thứcHọc sâu↔ so sánh
- Mạng nơ-ron tích chập đa phương thứcHọc sâu↔ so sánh
- Transformer Đa phương thứcHọc sâu↔ so sánh
- Mạng nơ-ron hồi quyHọc sâu↔ so sánh
Được tham chiếu bởi
Phát hiện lỗi trên trang này? Báo cáo hoặc đề xuất chỉnh sửa →