Machine learningDeep learning / NLP / CV

Багатомовний Vision Transformer

Багатомовний Vision Transformer (Multilingual ViT) розширює архітектуру Vision Transformer для роботи з кількома мовами, забезпечуючи розуміння зображень та міркування зображення-текст у багатомовних або міжмовних сценаріях. Він поєднує кодування зображень на основі патчів із багатомовними текстовими представленнями, дозволяючи одній моделі обслуговувати різноманітні мовні спільноти для таких завдань, як створення підписів до зображень, візуальне запитання-відповідь та міжмовний пошук зображень.

Відкрити у MethodMindНезабаромВідеоНезабаромЗавантажити слайди

Читати метод повністю

Лише для учасників

Увійдіть із безкоштовним обліковим записом, щоб прочитати цей розділ.

Увійти

Карта методів

Околиця споріднених методів — виберіть вузол, щоб дослідити.

Багатомовний Vision Transformer

Класифікація на основі б…Багатомовні векторні пре…Мультимодальний трансфор…Трансформер для комп'юте…Багатомовна класифікація…

Джерела

Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. International Conference on Learning Representations (ICLR 2021). link ↗
Bugliarello, E., Liu, F., Pfeiffer, J., Reddy, S., Elliott, D., Erdem, E., Erdem, A., & Lukasiewicz, T. (2022). IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages. International Conference on Machine Learning (ICML 2022). link ↗

Як цитувати цю сторінку

ScholarGate. (2026, June 3). Multilingual Vision Transformer (Multilingual ViT). ScholarGate. https://scholargate.app/uk/deep-learning/multilingual-vision-transformer

Який метод?

Поставте цей метод поруч із його найближчими спорідненими й читайте їх пліч-о-пліч — бібліотека викладає книги на стіл; вибір за вами.

Класифікація на основі багатомовного RoBERTaГлибоке навчання↔ порівняти
Багатомовні векторні представлення реченьГлибоке навчання↔ порівняти
Мультимодальний трансформер баченняГлибоке навчання↔ порівняти
Трансформер для комп'ютерного зоруГлибоке навчання↔ порівняти

Порівняти поруч →

Згадується в

Багатомовна класифікація зображень

Помітили помилку на цій сторінці? Повідомте про неї або запропонуйте виправлення →