Багатомовний Vision Transformer
Багатомовний Vision Transformer (Multilingual ViT) розширює архітектуру Vision Transformer для роботи з кількома мовами, забезпечуючи розуміння зображень та міркування зображення-текст у багатомовних або міжмовних сценаріях. Він поєднує кодування зображень на основі патчів із багатомовними текстовими представленнями, дозволяючи одній моделі обслуговувати різноманітні мовні спільноти для таких завдань, як створення підписів до зображень, візуальне запитання-відповідь та міжмовний пошук зображень.
Читати метод повністю
Увійдіть із безкоштовним обліковим записом, щоб прочитати цей розділ.
Карта методів
Околиця споріднених методів — виберіть вузол, щоб дослідити.
Джерела
- Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. International Conference on Learning Representations (ICLR 2021). link ↗
- Bugliarello, E., Liu, F., Pfeiffer, J., Reddy, S., Elliott, D., Erdem, E., Erdem, A., & Lukasiewicz, T. (2022). IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages. International Conference on Machine Learning (ICML 2022). link ↗
Як цитувати цю сторінку
ScholarGate. (2026, June 3). Multilingual Vision Transformer (Multilingual ViT). ScholarGate. https://scholargate.app/uk/deep-learning/multilingual-vision-transformer
Який метод?
Поставте цей метод поруч із його найближчими спорідненими й читайте їх пліч-о-пліч — бібліотека викладає книги на стіл; вибір за вами.
- Класифікація на основі багатомовного RoBERTaГлибоке навчання↔ порівняти
- Багатомовні векторні представлення реченьГлибоке навчання↔ порівняти
- Мультимодальний трансформер баченняГлибоке навчання↔ порівняти
- Трансформер для комп'ютерного зоруГлибоке навчання↔ порівняти
Згадується в
Помітили помилку на цій сторінці? Повідомте про неї або запропонуйте виправлення →