Machine learningDeep learning / NLP / CV

Hỏi đáp đa phương thức

Hỏi đáp đa phương thức (Multimodal QA) là một lớp các phương pháp học sâu trả lời các câu hỏi ngôn ngữ tự nhiên bằng cách suy luận chung trên thông tin từ nhiều phương thức — phổ biến nhất là văn bản và hình ảnh, nhưng cũng có thể là video, âm thanh và bảng dữ liệu có cấu trúc. Được giới thiệu nổi bật thông qua benchmark VQA vào năm 2015, nó đã mở rộng thành một lĩnh vực nghiên cứu rộng lớn, cung cấp năng lực cho việc hiểu tài liệu, hỗ trợ chẩn đoán y tế và AI hiện thân.

Mở trong MethodMindSắp ra mắtVideoSắp ra mắtDownload slides

Đọc toàn bộ phương pháp

Chỉ dành cho thành viên

Đăng nhập bằng tài khoản miễn phí để đọc phần này.

Đăng nhập

Method map

The neighbourhood of related methods — select a node to explore.

Nguồn tài liệu

  1. Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D., Zitnick, C. L., & Parikh, D. (2015). VQA: Visual Question Answering. Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2425–2433. DOI: 10.1109/ICCV.2015.279
  2. Xu, P., Zhu, X., & Clifton, D. A. (2023). Multimodal learning with transformers: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45(10), 12113–12132. DOI: 10.1109/TPAMI.2023.3275156

Cách trích dẫn trang này

ScholarGate. (2026, June 3). Multimodal Question Answering (Cross-Modal QA). ScholarGate. https://scholargate.app/vi/deep-learning/multimodal-question-answering

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Được tham chiếu bởi

ScholarGateMultimodal question answering (Multimodal Question Answering (Cross-Modal QA)). Truy cập ngày 2026-06-15 từ https://scholargate.app/vi/deep-learning/multimodal-question-answering · Bộ dữ liệu: https://doi.org/10.5281/zenodo.20539026