Vision Transformer multilingüe
El Vision Transformer multilingüe (Multilingual ViT) estén l'arquitectura Vision Transformer per operar en múltiples llengües, permetent la comprensió d'imatges i el raonament imatge-text en entorns multilingües o translingües. Combina l'emmagatzematge d'imatges basat en parxes amb representacions de text multilingües, permetent que un sol model serveixi a diverses comunitats lingüístiques per a tasques com la descripció d'imatges, la resposta visual a preguntes i la recuperació d'imatges translingüe.
Llegeix el mètode complet
Inicia la sessió amb un compte gratuït per llegir aquesta secció.
Method map
The neighbourhood of related methods — select a node to explore.
Fonts
- Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. International Conference on Learning Representations (ICLR 2021). link ↗
- Bugliarello, E., Liu, F., Pfeiffer, J., Reddy, S., Elliott, D., Erdem, E., Erdem, A., & Lukasiewicz, T. (2022). IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages. International Conference on Machine Learning (ICML 2022). link ↗
Com citar aquesta pàgina
ScholarGate. (2026, June 3). Multilingual Vision Transformer (Multilingual ViT). ScholarGate. https://scholargate.app/ca/deep-learning/multilingual-vision-transformer
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Classificació multilingüe basada en RoBERTaAprenentatge profund↔ compare
- Vectors de sentències multilingüesAprenentatge profund↔ compare
- Transformador de Visió MultimodalAprenentatge profund↔ compare
- Vision TransformerAprenentatge profund↔ compare
Citat per
Has vist cap problema en aquesta pàgina? Informa'n o suggereix una correcció →