Machine learningDeep learning / NLP / CV

Hỏi đáp đa phương thức

Hỏi đáp đa phương thức (Multimodal QA) là một lớp các phương pháp học sâu trả lời các câu hỏi ngôn ngữ tự nhiên bằng cách suy luận chung trên thông tin từ nhiều phương thức — phổ biến nhất là văn bản và hình ảnh, nhưng cũng có thể là video, âm thanh và bảng dữ liệu có cấu trúc. Được giới thiệu nổi bật thông qua benchmark VQA vào năm 2015, nó đã mở rộng thành một lĩnh vực nghiên cứu rộng lớn, cung cấp năng lực cho việc hiểu tài liệu, hỗ trợ chẩn đoán y tế và AI hiện thân.

Mở trong MethodMindSắp ra mắtVideoSắp ra mắtDownload slides

Đọc toàn bộ phương pháp

Chỉ dành cho thành viên

Đăng nhập bằng tài khoản miễn phí để đọc phần này.

Đăng nhập

Method map

The neighbourhood of related methods — select a node to explore.

Hỏi đáp đa phương thức

Phân loại dựa trên BERT Phân loại dựa trên BERT…Nhúng câu đa phương thức Tóm tắt văn bản đa phươn…Transformer Đa phương th…Nhận dạng thực thể có tê…

Nguồn tài liệu

Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D., Zitnick, C. L., & Parikh, D. (2015). VQA: Visual Question Answering. Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2425–2433. DOI: 10.1109/ICCV.2015.279 ↗
Xu, P., Zhu, X., & Clifton, D. A. (2023). Multimodal learning with transformers: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45(10), 12113–12132. DOI: 10.1109/TPAMI.2023.3275156 ↗

Cách trích dẫn trang này

ScholarGate. (2026, June 3). Multimodal Question Answering (Cross-Modal QA). ScholarGate. https://scholargate.app/vi/deep-learning/multimodal-question-answering

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Phân loại dựa trên BERTHọc sâu↔ compare
Phân loại dựa trên BERT đa phương thứcHọc sâu↔ compare
Nhúng câu đa phương thứcHọc sâu↔ compare
Tóm tắt văn bản đa phương thứcHọc sâu↔ compare
Transformer Đa phương thứcHọc sâu↔ compare

Compare side by side →

Được tham chiếu bởi

Nhận dạng thực thể có tên đa phương thức Tóm tắt văn bản đa phương thức

Phát hiện lỗi trên trang này? Báo cáo hoặc đề xuất chỉnh sửa →