ScholarGate
Асистент
Machine learningDeep learning / NLP / CV

Багатомовний Vision Transformer

Багатомовний Vision Transformer (Multilingual ViT) розширює архітектуру Vision Transformer для роботи з кількома мовами, забезпечуючи розуміння зображень та міркування зображення-текст у багатомовних або міжмовних сценаріях. Він поєднує кодування зображень на основі патчів із багатомовними текстовими представленнями, дозволяючи одній моделі обслуговувати різноманітні мовні спільноти для таких завдань, як створення підписів до зображень, візуальне запитання-відповідь та міжмовний пошук зображень.

Відкрити у MethodMindНезабаромВідеоНезабаромЗавантажити слайди

Читати метод повністю

Лише для учасників

Увійдіть із безкоштовним обліковим записом, щоб прочитати цей розділ.

Увійти

Карта методів

Околиця споріднених методів — виберіть вузол, щоб дослідити.

Джерела

  1. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. International Conference on Learning Representations (ICLR 2021). link
  2. Bugliarello, E., Liu, F., Pfeiffer, J., Reddy, S., Elliott, D., Erdem, E., Erdem, A., & Lukasiewicz, T. (2022). IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages. International Conference on Machine Learning (ICML 2022). link

Як цитувати цю сторінку

ScholarGate. (2026, June 3). Multilingual Vision Transformer (Multilingual ViT). ScholarGate. https://scholargate.app/uk/deep-learning/multilingual-vision-transformer

Який метод?

Поставте цей метод поруч із його найближчими спорідненими й читайте їх пліч-о-пліч — бібліотека викладає книги на стіл; вибір за вами.

Порівняти поруч

Згадується в

ScholarGateMultilingual vision transformer (Multilingual Vision Transformer (Multilingual ViT)). Отримано 2026-06-15 з https://scholargate.app/uk/deep-learning/multilingual-vision-transformer · Набір даних: https://doi.org/10.5281/zenodo.20539026