Machine learningDeep learning / NLP / CV

Πολύγλωσσο Vision Transformer

Το Πολύγλωσσο Vision Transformer (Multilingual ViT) επεκτείνει την αρχιτεκτονική Vision Transformer ώστε να λειτουργεί σε πολλαπλές γλώσσες, επιτρέποντας την κατανόηση εικόνων και τη συλλογιστική εικόνας-κειμένου σε πολύγλωσσα ή διαγλωσσικά περιβάλλοντα. Συνδυάζει κωδικοποίηση εικόνας βάσει τμημάτων (patches) με πολύγλωσσες αναπαραστάσεις κειμένου, επιτρέποντας σε ένα μόνο μοντέλο να εξυπηρετεί διαφορετικές γλωσσικές κοινότητες για εργασίες όπως η λεζάντογράφηση εικόνων, η οπτική απάντηση ερωτήσεων και η διαγλωσσική ανάκτηση εικόνων.

Άνοιγμα στο MethodMindΣύντομαΒίντεοΣύντομαΛήψη διαφανειών

Διαβάστε ολόκληρη τη μέθοδο

Μόνο για μέλη

Συνδεθείτε με δωρεάν λογαριασμό για να διαβάσετε αυτή την ενότητα.

Σύνδεση

Χάρτης μεθόδων

Η γειτονιά των σχετιζόμενων μεθόδων — επιλέξτε έναν κόμβο για εξερεύνηση.

Πολύγλωσσο Vision Transformer

Ταξινόμηση βασισμένη σε…Πολυγλωσσικές Ενσωματώσε…Multimodal Vision Transf…Vision Transformer Πολυγλωσσική Ταξινόμηση…

Πηγές

Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. International Conference on Learning Representations (ICLR 2021). link ↗
Bugliarello, E., Liu, F., Pfeiffer, J., Reddy, S., Elliott, D., Erdem, E., Erdem, A., & Lukasiewicz, T. (2022). IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages. International Conference on Machine Learning (ICML 2022). link ↗

Πώς να παραπέμψετε σε αυτή τη σελίδα

ScholarGate. (2026, June 3). Multilingual Vision Transformer (Multilingual ViT). ScholarGate. https://scholargate.app/el/deep-learning/multilingual-vision-transformer

Ποια μέθοδος;

Τοποθετήστε αυτή τη μέθοδο δίπλα στις πιο συγγενείς της και διαβάστε τις παράλληλα — η βιβλιοθήκη απλώνει τα βιβλία στο τραπέζι· η επιλογή είναι δική σας.

Ταξινόμηση βασισμένη σε πολυγλωσσικό RoBERTaΒαθιά Μάθηση↔ σύγκριση
Πολυγλωσσικές Ενσωματώσεις ΠροτάσεωνΒαθιά Μάθηση↔ σύγκριση
Multimodal Vision TransformerΒαθιά Μάθηση↔ σύγκριση
Vision TransformerΒαθιά Μάθηση↔ σύγκριση

Συγκρίνετε παράλληλα →

Αναφέρεται από

Πολυγλωσσική Ταξινόμηση Εικόνων

Εντοπίσατε πρόβλημα σε αυτή τη σελίδα; Αναφέρετέ το ή προτείνετε διόρθωση →