Machine learningDeep learning / NLP / CV

Многоязычный Vision Transformer

Многоязычный Vision Transformer (Multilingual ViT) расширяет архитектуру Vision Transformer для работы с несколькими языками, обеспечивая понимание изображений и рассуждения на основе изображений и текста в многоязычных или межъязыковых сценариях. Он сочетает в себе кодирование изображений на основе патчей с многоязычными текстовыми представлениями, позволяя одной модели обслуживать различные языковые сообщества для таких задач, как создание подписей к изображениям, ответы на визуальные вопросы и межъязыковой поиск изображений.

Открыть в MethodMindСкороВидеоСкороDownload slides

Читать метод полностью

Только для участников

Войдите с бесплатным аккаунтом, чтобы прочитать этот раздел.

Войти

Method map

The neighbourhood of related methods — select a node to explore.

Многоязычный Vision Transformer

Многоязычная классификац…Многоязычные вложения пр…Мультимодальный Vision T…Vision Transformer Многоязычная классификац…

Источники

Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. International Conference on Learning Representations (ICLR 2021). link ↗
Bugliarello, E., Liu, F., Pfeiffer, J., Reddy, S., Elliott, D., Erdem, E., Erdem, A., & Lukasiewicz, T. (2022). IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages. International Conference on Machine Learning (ICML 2022). link ↗

Как цитировать эту страницу

ScholarGate. (2026, June 3). Multilingual Vision Transformer (Multilingual ViT). ScholarGate. https://scholargate.app/ru/deep-learning/multilingual-vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Многоязычная классификация на основе RoBERTaГлубокое обучение↔ compare
Многоязычные вложения предложенийГлубокое обучение↔ compare
Мультимодальный Vision TransformerГлубокое обучение↔ compare
Vision TransformerГлубокое обучение↔ compare

Compare side by side →

Упоминается в

Многоязычная классификация изображений

Нашли ошибку на этой странице? Сообщите о ней или предложите исправление →