Machine learningDeep learning / NLP / CV

Vision Transformer multilingv (Multilingual ViT)

Vision Transformer multilingv (Multilingual ViT) extinde arhitectura Vision Transformer pentru a opera în mai multe limbi, permițând înțelegerea imaginilor și raționamentul imagine-text în contexte multilingve sau translingve. Combină codificarea imaginilor bazată pe patch-uri cu reprezentări textuale multilingve, permițând unui singur model să deservească diverse comunități lingvistice pentru sarcini precum generarea de legende pentru imagini, răspunsul la întrebări vizuale și recuperarea de imagini translingve.

Deschide în MethodMindÎn curândVideoÎn curândDownload slides

Citește metoda completă

Doar pentru membri

Autentifică-te cu un cont gratuit pentru a citi această secțiune.

Autentificare

Method map

The neighbourhood of related methods — select a node to explore.

Vision Transformer multilingv (Multilingual ViT)

Clasificare bazată pe Ro…Embeddings multilingve p…Transformer Vizual Multi…Vision Transformer Clasificare multilingvă…

Surse

Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. International Conference on Learning Representations (ICLR 2021). link ↗
Bugliarello, E., Liu, F., Pfeiffer, J., Reddy, S., Elliott, D., Erdem, E., Erdem, A., & Lukasiewicz, T. (2022). IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages. International Conference on Machine Learning (ICML 2022). link ↗

Cum se citează această pagină

ScholarGate. (2026, June 3). Multilingual Vision Transformer (Multilingual ViT). ScholarGate. https://scholargate.app/ro/deep-learning/multilingual-vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Clasificare bazată pe RoBERTa multilingvÎnvățare profundă↔ compare
Embeddings multilingve pentru propozițiiÎnvățare profundă↔ compare
Transformer Vizual MultimodalÎnvățare profundă↔ compare
Vision TransformerÎnvățare profundă↔ compare

Compare side by side →

Citat de

Clasificare multilingvă de imagini

Ai observat o problemă pe această pagină? Raportează sau sugerează o corectură →