Multimodal Long Short-Term Memory Network
Một LSTM thông thường đọc một luồng token duy nhất và ghi nhớ những gì quan trọng qua các bước thời gian. LSTM đa phương thức đặt câu hỏi: điều gì sẽ xảy ra nếu đầu vào không chỉ là từ ngữ, mà còn là giọng điệu, biểu cảm khuôn mặt, hoặc các khung hình ảnh — tất cả đều diễn ra theo thời gian? Ý tưởng cốt lõi là mỗi phương thức mang các tín hiệu bổ sung, và việc hợp nhất chúng — bằng cách nối các vector đặc trưng của chúng tại mỗi bước, học một trạng thái ô chung, hoặc sử dụng các cổng chuyên dụng — cho phép mạng khai thác các tương quan giữa các phương thức mà không luồng nào tiết lộ một mình. Kết quả là một mô hình tuần tự phong phú hơn, nhìn thấy bức tranh toàn cảnh.
Đọc toàn bộ phương pháp
Đăng nhập bằng tài khoản miễn phí để đọc phần này.
Method map
The neighbourhood of related methods — select a node to explore.
Nguồn tài liệu
- Rajagopalan, S., Tran, L., Rozgic, V., Narayanan, S., Kumar, A., & Ramakrishna, S. (2016). Extending Long Short-Term Memory for Multi-View Structured Learning. In Proceedings of ECCV 2016. Springer. link ↗
- Hochreiter, S., & Schmidhuber, J. (1997). Long Short-Term Memory. Neural Computation, 9(8), 1735–1780. DOI: 10.1162/neco.1997.9.8.1735 ↗
Cách trích dẫn trang này
ScholarGate. (2026, June 3). Multimodal Long Short-Term Memory Network. ScholarGate. https://scholargate.app/vi/deep-learning/multimodal-lstm
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Cơ chế chú ý (Attention Mechanism)Học sâu↔ compare
- Cổng Lặp Lại Có Cổng (GRU)Học sâu↔ compare
- LSTMHọc sâu↔ compare
- Transformer Đa phương thứcHọc sâu↔ compare
Được tham chiếu bởi
Phát hiện lỗi trên trang này? Báo cáo hoặc đề xuất chỉnh sửa →