Vision Transformer
El Vision Transformer (ViT), introducido por Dosovitskiy y colegas en 2021, divide una imagen en parches de tamaño fijo, trata dichos parches como una secuencia y aplica el mecanismo de autoatención del Transformer a la clasificación de imágenes. Con suficientes datos de entrenamiento, supera a las redes neuronales convolucionales (CNN).
Leer el método completo
Inicia sesión con una cuenta gratuita para leer esta sección.
Method map
The neighbourhood of related methods — select a node to explore.
+27 more
Fuentes
Cómo citar esta página
ScholarGate. (2026, June 1). Vision Transformer (ViT). ScholarGate. https://scholargate.app/es/deep-learning/vision-transformer
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Modelo de difusiónAprendizaje profundo↔ compare
- Red Generativa AntagónicaAprendizaje profundo↔ compare
- Random ForestAprendizaje automático↔ compare
- Máquina de Vectores de Soporte (Clasificación)Aprendizaje automático↔ compare
- Autoencoder VariacionalAprendizaje profundo↔ compare
Citado por
¿Has visto un problema en esta página? Infórmanos o sugiere una corrección →