Transformer Thị giác Đa ngôn ngữ
Transformer Thị giác Đa ngôn ngữ (Multilingual ViT) mở rộng kiến trúc Transformer Thị giác để hoạt động trên nhiều ngôn ngữ, cho phép hiểu hình ảnh và suy luận hình ảnh-văn bản trong các thiết lập đa ngôn ngữ hoặc xuyên ngôn ngữ. Nó kết hợp mã hóa hình ảnh dựa trên các mảng con (patch) với biểu diễn văn bản đa ngôn ngữ, cho phép một mô hình duy nhất phục vụ các cộng đồng ngôn ngữ đa dạng cho các tác vụ như tạo chú thích ảnh, trả lời câu hỏi trực quan và truy xuất hình ảnh xuyên ngôn ngữ.
Đọc toàn bộ phương pháp
Đăng nhập bằng tài khoản miễn phí để đọc phần này.
Method map
The neighbourhood of related methods — select a node to explore.
Nguồn tài liệu
- Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. International Conference on Learning Representations (ICLR 2021). link ↗
- Bugliarello, E., Liu, F., Pfeiffer, J., Reddy, S., Elliott, D., Erdem, E., Erdem, A., & Lukasiewicz, T. (2022). IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages. International Conference on Machine Learning (ICML 2022). link ↗
Cách trích dẫn trang này
ScholarGate. (2026, June 3). Multilingual Vision Transformer (Multilingual ViT). ScholarGate. https://scholargate.app/vi/deep-learning/multilingual-vision-transformer
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Phân loại dựa trên RoBERTa đa ngôn ngữHọc sâu↔ compare
- Nhúng câu đa ngôn ngữHọc sâu↔ compare
- Transformer Thị giác Đa phương thứcHọc sâu↔ compare
- Transformer Thị giácHọc sâu↔ compare
Được tham chiếu bởi
Phát hiện lỗi trên trang này? Báo cáo hoặc đề xuất chỉnh sửa →