Hỏi đáp đa phương thức
Hỏi đáp đa phương thức (Multimodal QA) là một lớp các phương pháp học sâu trả lời các câu hỏi ngôn ngữ tự nhiên bằng cách suy luận chung trên thông tin từ nhiều phương thức — phổ biến nhất là văn bản và hình ảnh, nhưng cũng có thể là video, âm thanh và bảng dữ liệu có cấu trúc. Được giới thiệu nổi bật thông qua benchmark VQA vào năm 2015, nó đã mở rộng thành một lĩnh vực nghiên cứu rộng lớn, cung cấp năng lực cho việc hiểu tài liệu, hỗ trợ chẩn đoán y tế và AI hiện thân.
Đọc toàn bộ phương pháp
Đăng nhập bằng tài khoản miễn phí để đọc phần này.
Method map
The neighbourhood of related methods — select a node to explore.
Nguồn tài liệu
- Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D., Zitnick, C. L., & Parikh, D. (2015). VQA: Visual Question Answering. Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2425–2433. DOI: 10.1109/ICCV.2015.279 ↗
- Xu, P., Zhu, X., & Clifton, D. A. (2023). Multimodal learning with transformers: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45(10), 12113–12132. DOI: 10.1109/TPAMI.2023.3275156 ↗
Cách trích dẫn trang này
ScholarGate. (2026, June 3). Multimodal Question Answering (Cross-Modal QA). ScholarGate. https://scholargate.app/vi/deep-learning/multimodal-question-answering
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Phân loại dựa trên BERTHọc sâu↔ compare
- Phân loại dựa trên BERT đa phương thứcHọc sâu↔ compare
- Nhúng câu đa phương thứcHọc sâu↔ compare
- Tóm tắt văn bản đa phương thứcHọc sâu↔ compare
- Transformer Đa phương thứcHọc sâu↔ compare
Được tham chiếu bởi
Phát hiện lỗi trên trang này? Báo cáo hoặc đề xuất chỉnh sửa →