ScholarGate
Trợ lý
Machine learningDeep learning / NLP / CV

Mạng nơ-ron hồi quy đa phương thức

Mạng nơ-ron hồi quy đa phương thức (Multimodal Recurrent Neural Network) kết hợp đầu vào từ hai hoặc nhiều phương thức dữ liệu — như hình ảnh, văn bản và âm thanh — trong một khuôn khổ xử lý chuỗi hồi quy. Nó mã hóa từng phương thức một cách riêng biệt, hợp nhất các biểu diễn, và sau đó xử lý tín hiệu kết hợp thông qua các đơn vị hồi quy (RNN, LSTM, hoặc GRU) để tạo ra hoặc phân loại các đầu ra tuần tự. Thiết kế này đã làm cho nó trở thành một phương pháp nền tảng trong việc tạo chú thích ảnh, mô tả video và nhận dạng giọng nói nghe-nhìn.

Mở trong MethodMindSắp ra mắtVideoSắp ra mắtTải xuống bản trình chiếu

Đọc toàn bộ phương pháp

Chỉ dành cho thành viên

Đăng nhập bằng tài khoản miễn phí để đọc phần này.

Đăng nhập

Bản đồ phương pháp

Lân cận của các phương pháp liên quan — chọn một nút để khám phá.

Nguồn tài liệu

  1. Vinyals, O., Toshev, A., Bengio, S., & Erhan, D. (2015). Show and Tell: A Neural Image Caption Generator. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 3156–3164. DOI: 10.1109/CVPR.2015.7298935
  2. Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., & Ng, A. Y. (2011). Multimodal Deep Learning. Proceedings of the 28th International Conference on Machine Learning (ICML), pp. 689–696. link

Cách trích dẫn trang này

ScholarGate. (2026, June 3). Multimodal Recurrent Neural Network (MM-RNN). ScholarGate. https://scholargate.app/vi/deep-learning/multimodal-recurrent-neural-network

Phương pháp nào?

Đặt phương pháp này bên cạnh những phương pháp gần gũi nhất với nó và đọc chúng song song — thư viện bày sách lên bàn; lựa chọn là của bạn.

So sánh song song

Được tham chiếu bởi

ScholarGateMultimodal Recurrent Neural Network (Multimodal Recurrent Neural Network (MM-RNN)). Truy cập ngày 2026-06-15 từ https://scholargate.app/vi/deep-learning/multimodal-recurrent-neural-network · Bộ dữ liệu: https://doi.org/10.5281/zenodo.20539026