ScholarGate
Βοηθός
Machine learning

Vision Transformer

Ο Vision Transformer (ViT), που εισήχθη από τους Dosovitskiy και συνεργάτες το 2021, χωρίζει μια εικόνα σε επιθέματα σταθερού μεγέθους, τα αντιμετωπίζει ως ακολουθία και εφαρμόζει τον μηχανισμό αυτο-προσοχής του Transformer για ταξινόμηση εικόνων. Με επαρκή δεδομένα εκπαίδευσης, ξεπερνά τα συνελικτικά νευρωνικά δίκτυα (CNNs).

Άνοιγμα στο MethodMindΣύντομαΒίντεοΣύντομαDownload slides

Διαβάστε ολόκληρη τη μέθοδο

Μόνο για μέλη

Συνδεθείτε με δωρεάν λογαριασμό για να διαβάσετε αυτή την ενότητα.

Σύνδεση

Method map

The neighbourhood of related methods — select a node to explore.

+27 more

Πηγές

  1. Dosovitskiy, A. et al. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR. link
  2. Touvron, H. et al. (2021). Training Data-Efficient Image Transformers. ICML. link

Πώς να παραπέμψετε σε αυτή τη σελίδα

ScholarGate. (2026, June 1). Vision Transformer (ViT). ScholarGate. https://scholargate.app/el/deep-learning/vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Αναφέρεται από

Επαναρρύθμιση (Fine-Tuning) του BERTCLIPΠροσαρμοστικός Μετασχηματιστής ΤομέαΠροσαρμοστικός Μετασχηματιστής Όρασης (Domain-Adaptive Vision Transformer)Επεξηγήσιμος Μετασχηματιστής ΌρασηςΠροσαρμοσμένος Όρασης ΜετασχηματιστήςΕκπαίδευση GPT (Fine-Tuning)Κατηγοριοποίηση ΕικόνωνΔίκτυα Kolmogorov-ArnoldLoRA και PEFTMamba (Μοντέλο Χώρου Καταστάσεων)Μασκοφόροι ΑυτοκωδικοποιητέςΠολύγλωσσο Vision TransformerΤαξινόμηση Βασισμένη σε Πολυτροπικό BERTΠολυτροπική Επεξεργασία Φυσικής Γλώσσας (NLP)Πολυτροπική Σημασιολογική ΤμηματοποίησηΠολυτροπικός ΜετασχηματιστήςMultimodal Vision TransformerΜοντέλο Τμηματοποίησης ΟτιδήποτεΑυτο-εποπτευόμενο GANΑυτο-εποπτευόμενη Ταξινόμηση ΕικόνωνSelf-supervised Instance SegmentationΑυτο-εποπτευόμενη Σημασιολογική ΤμηματοποίησηΜετασχηματιστής Όρασης Αυτο-εποπτευόμενοςΕπιβλεπόμενος Μετασχηματιστής Όρασης (Semi-supervised Vision Transformer)Το SimCLRΧωροχρονικά Συνελικτικά Δίκτυα ΓράφωνSwin TransformerTimeGPTVision MambaΑνίχνευση Αντικειμένων με Ασθενή ΕπίβλεψηΑσθενώς επιβλεπόμενος Μετασχηματιστής Όρασης
ScholarGateVision Transformer (Vision Transformer (ViT)). Ανακτήθηκε στις 2026-06-15 από https://scholargate.app/el/deep-learning/vision-transformer · Σύνολο δεδομένων: https://doi.org/10.5281/zenodo.20539026