Machine learningDeep learning / NLP / CV

Многоязычный Vision Transformer

Многоязычный Vision Transformer (Multilingual ViT) расширяет архитектуру Vision Transformer для работы с несколькими языками, обеспечивая понимание изображений и рассуждения на основе изображений и текста в многоязычных или межъязыковых сценариях. Он сочетает в себе кодирование изображений на основе патчей с многоязычными текстовыми представлениями, позволяя одной модели обслуживать различные языковые сообщества для таких задач, как создание подписей к изображениям, ответы на визуальные вопросы и межъязыковой поиск изображений.

Открыть в MethodMindСкороВидеоСкороDownload slides

Читать метод полностью

Только для участников

Войдите с бесплатным аккаунтом, чтобы прочитать этот раздел.

Войти

Method map

The neighbourhood of related methods — select a node to explore.

Источники

  1. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. International Conference on Learning Representations (ICLR 2021). link
  2. Bugliarello, E., Liu, F., Pfeiffer, J., Reddy, S., Elliott, D., Erdem, E., Erdem, A., & Lukasiewicz, T. (2022). IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages. International Conference on Machine Learning (ICML 2022). link

Как цитировать эту страницу

ScholarGate. (2026, June 3). Multilingual Vision Transformer (Multilingual ViT). ScholarGate. https://scholargate.app/ru/deep-learning/multilingual-vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Упоминается в

ScholarGateMultilingual vision transformer (Multilingual Vision Transformer (Multilingual ViT)). Получено 2026-06-15 из https://scholargate.app/ru/deep-learning/multilingual-vision-transformer · Набор данных: https://doi.org/10.5281/zenodo.20539026