ScholarGate
Trợ lý
Machine learningDeep learning / NLP / CV

Transformer Thị giác Đa ngôn ngữ

Transformer Thị giác Đa ngôn ngữ (Multilingual ViT) mở rộng kiến trúc Transformer Thị giác để hoạt động trên nhiều ngôn ngữ, cho phép hiểu hình ảnh và suy luận hình ảnh-văn bản trong các thiết lập đa ngôn ngữ hoặc xuyên ngôn ngữ. Nó kết hợp mã hóa hình ảnh dựa trên các mảng con (patch) với biểu diễn văn bản đa ngôn ngữ, cho phép một mô hình duy nhất phục vụ các cộng đồng ngôn ngữ đa dạng cho các tác vụ như tạo chú thích ảnh, trả lời câu hỏi trực quan và truy xuất hình ảnh xuyên ngôn ngữ.

Mở trong MethodMindSắp ra mắtVideoSắp ra mắtDownload slides

Đọc toàn bộ phương pháp

Chỉ dành cho thành viên

Đăng nhập bằng tài khoản miễn phí để đọc phần này.

Đăng nhập

Method map

The neighbourhood of related methods — select a node to explore.

Nguồn tài liệu

  1. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. International Conference on Learning Representations (ICLR 2021). link
  2. Bugliarello, E., Liu, F., Pfeiffer, J., Reddy, S., Elliott, D., Erdem, E., Erdem, A., & Lukasiewicz, T. (2022). IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages. International Conference on Machine Learning (ICML 2022). link

Cách trích dẫn trang này

ScholarGate. (2026, June 3). Multilingual Vision Transformer (Multilingual ViT). ScholarGate. https://scholargate.app/vi/deep-learning/multilingual-vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Được tham chiếu bởi

ScholarGateMultilingual vision transformer (Multilingual Vision Transformer (Multilingual ViT)). Truy cập ngày 2026-06-15 từ https://scholargate.app/vi/deep-learning/multilingual-vision-transformer · Bộ dữ liệu: https://doi.org/10.5281/zenodo.20539026