Machine learning

Vision Transformer

Le Vision Transformer (ViT), introduit par Dosovitskiy et ses collègues en 2021, divise une image en patchs de taille fixe, traite ces patchs comme une séquence et applique le mécanisme d'auto-attention du Transformer à la classification d'images. Avec suffisamment de données d'entraînement, il surpasse les réseaux neuronaux convolutifs (CNN).

Ouvrir dans MethodMindBientôtVidéoBientôtDownload slides

Lire la méthode complète

Réservé aux membres

Connectez-vous avec un compte gratuit pour lire cette section.

Se connecter

Method map

The neighbourhood of related methods — select a node to explore.

Vision Transformer

Modèle de diffusion Réseau antagoniste génér…Forêt Aléatoire Machine à vecteurs de su…Autoencodeur Variationnel Ajustement fin de BERT CLIP Transformeur à adaptatio…Vision Transformer adapt…Explainable Vision Trans…

+27 more

Sources

Dosovitskiy, A. et al. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR. link ↗
Touvron, H. et al. (2021). Training Data-Efficient Image Transformers. ICML. link ↗

Comment citer cette page

ScholarGate. (2026, June 1). Vision Transformer (ViT). ScholarGate. https://scholargate.app/fr/deep-learning/vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Modèle de diffusionApprentissage profond↔ compare
Réseau antagoniste génératifApprentissage profond↔ compare
Forêt AléatoireApprentissage automatique↔ compare
Machine à vecteurs de support (Classification)Apprentissage automatique↔ compare
Autoencodeur VariationnelApprentissage profond↔ compare

Compare side by side →

Référencée par

Ajustement fin de BERT CLIP Transformeur à adaptation de domaine Vision Transformer adaptatif au domaine Explainable Vision Transformer Transformeur Vision Ajusté Ajustement fin de GPT Classification d'images Réseaux de Kolmogorov-Arnold LoRA et PEFT Mamba (Modèle à espace d'états)Autoencodeurs masqués Vision Transformer multilingue Classification multimodale basée sur BERT Traitement automatique du langage naturel multimodal Segmentation sémantique multimodale Transformeur Multimodal Multimodal Vision Transformer Modèle Segment Anything GAN auto-supervisé Classification d'images auto-supervisée Segmentation d'instances auto-supervisée Segmentation sémantique auto-supervisée Vision Transformer auto-supervisé Vision Transformer semi-supervisé SimCLR Réseaux de convolution sur graphes spatio-temporels Swin Transformer TimeGPT Mamba Vision Détection d'objets faiblement supervisée Vision Transformer faiblement supervisé

Une erreur sur cette page ? Signalez-la ou proposez une correction →

Lire la méthode complète

Method map

Sources

Comment citer cette page

Méthodes apparentées

Which method?

Référencée par