ScholarGate
Asystent
Machine learningDeep learning / NLP / CV

Wielojęzyczny Transformer Wizyjny

Wielojęzyczny Transformer Wizyjny (Multilingual ViT) rozszerza architekturę Transformera Wizyjnego do działania w wielu językach, umożliwiając rozumienie obrazów i rozumowanie obrazowo-tekstowe w ustawieniach wielojęzycznych lub międzyjęzykowych. Łączy on kodowanie obrazu oparte na łatach z wielojęzycznymi reprezentacjami tekstowymi, pozwalając pojedynczemu modelowi obsługiwać różnorodne społeczności językowe w zadaniach takich jak opisywanie obrazów, odpowiadanie na pytania wizualne i międzyjęzykowe wyszukiwanie obrazów.

Otwórz w MethodMindWkrótceWideoWkrótceDownload slides

Przeczytaj pełny opis metody

Tylko dla członków

Zaloguj się na bezpłatne konto, aby przeczytać tę sekcję.

Zaloguj się

Method map

The neighbourhood of related methods — select a node to explore.

Źródła

  1. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. International Conference on Learning Representations (ICLR 2021). link
  2. Bugliarello, E., Liu, F., Pfeiffer, J., Reddy, S., Elliott, D., Erdem, E., Erdem, A., & Lukasiewicz, T. (2022). IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages. International Conference on Machine Learning (ICML 2022). link

Jak cytować tę stronę

ScholarGate. (2026, June 3). Multilingual Vision Transformer (Multilingual ViT). ScholarGate. https://scholargate.app/pl/deep-learning/multilingual-vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Cytowana przez

ScholarGateMultilingual vision transformer (Multilingual Vision Transformer (Multilingual ViT)). Pobrano 2026-06-15 z https://scholargate.app/pl/deep-learning/multilingual-vision-transformer · Zbiór danych: https://doi.org/10.5281/zenodo.20539026