Vision Transformer multilingv (Multilingual ViT)
Vision Transformer multilingv (Multilingual ViT) extinde arhitectura Vision Transformer pentru a opera în mai multe limbi, permițând înțelegerea imaginilor și raționamentul imagine-text în contexte multilingve sau translingve. Combină codificarea imaginilor bazată pe patch-uri cu reprezentări textuale multilingve, permițând unui singur model să deservească diverse comunități lingvistice pentru sarcini precum generarea de legende pentru imagini, răspunsul la întrebări vizuale și recuperarea de imagini translingve.
Citește metoda completă
Autentifică-te cu un cont gratuit pentru a citi această secțiune.
Method map
The neighbourhood of related methods — select a node to explore.
Surse
- Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. International Conference on Learning Representations (ICLR 2021). link ↗
- Bugliarello, E., Liu, F., Pfeiffer, J., Reddy, S., Elliott, D., Erdem, E., Erdem, A., & Lukasiewicz, T. (2022). IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages. International Conference on Machine Learning (ICML 2022). link ↗
Cum se citează această pagină
ScholarGate. (2026, June 3). Multilingual Vision Transformer (Multilingual ViT). ScholarGate. https://scholargate.app/ro/deep-learning/multilingual-vision-transformer
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Clasificare bazată pe RoBERTa multilingvÎnvățare profundă↔ compare
- Embeddings multilingve pentru propozițiiÎnvățare profundă↔ compare
- Transformer Vizual MultimodalÎnvățare profundă↔ compare
- Vision TransformerÎnvățare profundă↔ compare
Citat de
Ai observat o problemă pe această pagină? Raportează sau sugerează o corectură →