Machine learningDeep learning / NLP / CV

Mạng nơ-ron hồi quy đa phương thức

Mạng nơ-ron hồi quy đa phương thức (Multimodal Recurrent Neural Network) kết hợp đầu vào từ hai hoặc nhiều phương thức dữ liệu — như hình ảnh, văn bản và âm thanh — trong một khuôn khổ xử lý chuỗi hồi quy. Nó mã hóa từng phương thức một cách riêng biệt, hợp nhất các biểu diễn, và sau đó xử lý tín hiệu kết hợp thông qua các đơn vị hồi quy (RNN, LSTM, hoặc GRU) để tạo ra hoặc phân loại các đầu ra tuần tự. Thiết kế này đã làm cho nó trở thành một phương pháp nền tảng trong việc tạo chú thích ảnh, mô tả video và nhận dạng giọng nói nghe-nhìn.

Mở trong MethodMindSắp ra mắtVideoSắp ra mắtTải xuống bản trình chiếu

Đọc toàn bộ phương pháp

Chỉ dành cho thành viên

Đăng nhập bằng tài khoản miễn phí để đọc phần này.

Đăng nhập

Bản đồ phương pháp

Lân cận của các phương pháp liên quan — chọn một nút để khám phá.

Mạng nơ-ron hồi quy đa phương thức

Cổng Lặp Lại Có Cổng (GR…Mạng bộ nhớ dài-ngắn hạn…Phân loại dựa trên BERT…Mạng nơ-ron tích chập đa…Transformer Đa phương th…Mạng nơ-ron hồi quy Multimodal GRU

Nguồn tài liệu

Vinyals, O., Toshev, A., Bengio, S., & Erhan, D. (2015). Show and Tell: A Neural Image Caption Generator. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 3156–3164. DOI: 10.1109/CVPR.2015.7298935 ↗
Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., & Ng, A. Y. (2011). Multimodal Deep Learning. Proceedings of the 28th International Conference on Machine Learning (ICML), pp. 689–696. link ↗

Cách trích dẫn trang này

ScholarGate. (2026, June 3). Multimodal Recurrent Neural Network (MM-RNN). ScholarGate. https://scholargate.app/vi/deep-learning/multimodal-recurrent-neural-network

Phương pháp nào?

Đặt phương pháp này bên cạnh những phương pháp gần gũi nhất với nó và đọc chúng song song — thư viện bày sách lên bàn; lựa chọn là của bạn.

Cổng Lặp Lại Có Cổng (GRU)Học sâu↔ so sánh
Mạng bộ nhớ dài-ngắn hạn (LSTM)Học sâu↔ so sánh
Phân loại dựa trên BERT đa phương thứcHọc sâu↔ so sánh
Mạng nơ-ron tích chập đa phương thứcHọc sâu↔ so sánh
Transformer Đa phương thứcHọc sâu↔ so sánh
Mạng nơ-ron hồi quyHọc sâu↔ so sánh

So sánh song song →

Được tham chiếu bởi

Mạng nơ-ron tích chập đa phương thức Multimodal GRU

Phát hiện lỗi trên trang này? Báo cáo hoặc đề xuất chỉnh sửa →