ScholarGate
Βοηθός
Machine learningDeep learning / NLP / CV

Πολύγλωσσο Vision Transformer

Το Πολύγλωσσο Vision Transformer (Multilingual ViT) επεκτείνει την αρχιτεκτονική Vision Transformer ώστε να λειτουργεί σε πολλαπλές γλώσσες, επιτρέποντας την κατανόηση εικόνων και τη συλλογιστική εικόνας-κειμένου σε πολύγλωσσα ή διαγλωσσικά περιβάλλοντα. Συνδυάζει κωδικοποίηση εικόνας βάσει τμημάτων (patches) με πολύγλωσσες αναπαραστάσεις κειμένου, επιτρέποντας σε ένα μόνο μοντέλο να εξυπηρετεί διαφορετικές γλωσσικές κοινότητες για εργασίες όπως η λεζάντογράφηση εικόνων, η οπτική απάντηση ερωτήσεων και η διαγλωσσική ανάκτηση εικόνων.

Άνοιγμα στο MethodMindΣύντομαΒίντεοΣύντομαΛήψη διαφανειών

Διαβάστε ολόκληρη τη μέθοδο

Μόνο για μέλη

Συνδεθείτε με δωρεάν λογαριασμό για να διαβάσετε αυτή την ενότητα.

Σύνδεση

Χάρτης μεθόδων

Η γειτονιά των σχετιζόμενων μεθόδων — επιλέξτε έναν κόμβο για εξερεύνηση.

Πηγές

  1. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. International Conference on Learning Representations (ICLR 2021). link
  2. Bugliarello, E., Liu, F., Pfeiffer, J., Reddy, S., Elliott, D., Erdem, E., Erdem, A., & Lukasiewicz, T. (2022). IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages. International Conference on Machine Learning (ICML 2022). link

Πώς να παραπέμψετε σε αυτή τη σελίδα

ScholarGate. (2026, June 3). Multilingual Vision Transformer (Multilingual ViT). ScholarGate. https://scholargate.app/el/deep-learning/multilingual-vision-transformer

Ποια μέθοδος;

Τοποθετήστε αυτή τη μέθοδο δίπλα στις πιο συγγενείς της και διαβάστε τις παράλληλα — η βιβλιοθήκη απλώνει τα βιβλία στο τραπέζι· η επιλογή είναι δική σας.

Συγκρίνετε παράλληλα

Αναφέρεται από

ScholarGateMultilingual vision transformer (Multilingual Vision Transformer (Multilingual ViT)). Ανακτήθηκε στις 2026-06-15 από https://scholargate.app/el/deep-learning/multilingual-vision-transformer · Σύνολο δεδομένων: https://doi.org/10.5281/zenodo.20539026