Xử lý ngôn ngữ tự nhiên đa phương thức — Hiểu Ngôn ngữ Thị giác
Xử lý ngôn ngữ tự nhiên đa phương thức (Multimodal NLP) là một họ các quy trình xử lý ngôn ngữ tự nhiên kết hợp văn bản với một hoặc nhiều phương thức dữ liệu bổ sung — phổ biến nhất là hình ảnh, nhưng cũng có âm thanh và video — để thực hiện các tác vụ hiểu và tạo sinh như trả lời câu hỏi thị giác, tạo chú thích ảnh và nhận dạng cảm xúc đa phương thức. Lĩnh vực này đã có hình thức hiện đại với CLIP (Radford và cộng sự, 2021) và kể từ đó đã tiến bộ thông qua các kiến trúc như BLIP-2 (Li và cộng sự, 2023) để kết nối các bộ mã hóa hình ảnh đóng băng và các mô hình ngôn ngữ lớn.
Đọc toàn bộ phương pháp
Đăng nhập bằng tài khoản miễn phí để đọc phần này.
Method map
The neighbourhood of related methods — select a node to explore.
Nguồn tài liệu
- Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), 8748–8763. link ↗
- Li, J., Li, D., Savarese, S., & Hoi, S. (2023). BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. Proceedings of the 40th International Conference on Machine Learning (ICML), 19730–19742. link ↗
Cách trích dẫn trang này
ScholarGate. (2026, June 1). Multimodal Natural Language Processing. ScholarGate. https://scholargate.app/vi/text-mining/multimodal-nlp
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Cơ chế chú ý (Attention Mechanism)Học sâu↔ compare
- BERT EmbeddingsKhai phá văn bản↔ compare
- Phân tích Cảm xúcKhai phá văn bản↔ compare
- Transformer Thị giácHọc sâu↔ compare
Phát hiện lỗi trên trang này? Báo cáo hoặc đề xuất chỉnh sửa →