Machine learning

Vision Transformer

El Vision Transformer (ViT), introduït per Dosovitskiy i els seus col·legues el 2021, divideix una imatge en pegats de mida fixa, tracta aquests pegats com una seqüència i aplica el mecanisme d'autoatenció del Transformer a la classificació d'imatges. Amb prou dades d'entrenament, supera les xarxes neuronals convolucionals (CNNs).

Obre a MethodMindAviatVídeoAviatDownload slides

Llegeix el mètode complet

Només per a membres

Inicia la sessió amb un compte gratuït per llegir aquesta secció.

Inicia la sessió

Method map

The neighbourhood of related methods — select a node to explore.

Vision Transformer

Model de difusió Generative Adversarial N…Random Forest Màquina de Vectors de Su…Variational Autoencoder Ajustament BERT CLIP Transformer Adaptatiu al…Vision Transformer Adapt…Explainable Vision Trans…

+27 more

Fonts

Dosovitskiy, A. et al. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR. link ↗
Touvron, H. et al. (2021). Training Data-Efficient Image Transformers. ICML. link ↗

Com citar aquesta pàgina

ScholarGate. (2026, June 1). Vision Transformer (ViT). ScholarGate. https://scholargate.app/ca/deep-learning/vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Model de difusióAprenentatge profund↔ compare
Generative Adversarial NetworkAprenentatge profund↔ compare
Random ForestAprenentatge automàtic↔ compare
Màquina de Vectors de Suport (Classificació)Aprenentatge automàtic↔ compare
Variational AutoencoderAprenentatge profund↔ compare

Compare side by side →

Citat per

Ajustament BERT CLIP Transformer Adaptatiu al Domini Vision Transformer Adaptatiu al Domini Explainable Vision Transformer Vision Transformer ajustat (Fine-Tuned Vision Transformer)Ajustament fi de GPT Classificació d'imatges Kolmogorov-Arnold Networks LoRA i PEFT Mamba (Model d'Espai d'Estats)Autoencoders emmascarats Vision Transformer multilingüe Classificació multimodal basada en BERT PNL Multimodal Segmentació semàntica multimodal Multimodal Transformer Transformador de Visió Multimodal Model de Segmentació de Tot Self-supervised GAN Classificació d'imatges auto-supervisada Segmentació d'instàncies auto-supervisada Segmentació semàntica auto-supervisada Vision Transformer auto-supervisat Vision Transformer Semisupervisat SimCLR Xarxes Convolucionals de Graf Espaciotemporal Swin Transformer TimeGPT Vision Mamba Detecció d'objectes amb supervisió feble Transformador de Visió amb Supervisió Feble

Has vist cap problema en aquesta pàgina? Informa'n o suggereix una correcció →

Llegeix el mètode complet

Method map

Fonts

Com citar aquesta pàgina

Mètodes relacionats

Which method?

Citat per