Vision Transformer
El Vision Transformer (ViT), introduït per Dosovitskiy i els seus col·legues el 2021, divideix una imatge en pegats de mida fixa, tracta aquests pegats com una seqüència i aplica el mecanisme d'autoatenció del Transformer a la classificació d'imatges. Amb prou dades d'entrenament, supera les xarxes neuronals convolucionals (CNNs).
Llegeix el mètode complet
Inicia la sessió amb un compte gratuït per llegir aquesta secció.
Method map
The neighbourhood of related methods — select a node to explore.
+27 more
Fonts
Com citar aquesta pàgina
ScholarGate. (2026, June 1). Vision Transformer (ViT). ScholarGate. https://scholargate.app/ca/deep-learning/vision-transformer
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Model de difusióAprenentatge profund↔ compare
- Generative Adversarial NetworkAprenentatge profund↔ compare
- Random ForestAprenentatge automàtic↔ compare
- Màquina de Vectors de Suport (Classificació)Aprenentatge automàtic↔ compare
- Variational AutoencoderAprenentatge profund↔ compare
Citat per
Has vist cap problema en aquesta pàgina? Informa'n o suggereix una correcció →