Machine learning

Vision Transformer

El Vision Transformer (ViT), introducido por Dosovitskiy y colegas en 2021, divide una imagen en parches de tamaño fijo, trata dichos parches como una secuencia y aplica el mecanismo de autoatención del Transformer a la clasificación de imágenes. Con suficientes datos de entrenamiento, supera a las redes neuronales convolucionales (CNN).

Abrir en MethodMindPróximamenteVídeoPróximamenteDownload slides

Leer el método completo

Solo para miembros

Inicia sesión con una cuenta gratuita para leer esta sección.

Iniciar sesión

Method map

The neighbourhood of related methods — select a node to explore.

Vision Transformer

Modelo de difusión Red Generativa Antagónica Random Forest Máquina de Vectores de S…Autoencoder Variacional Ajuste fino de BERT CLIP Transformador de Adaptac…Vision Transformer Adapt…Transformador de Visión…

+27 more

Fuentes

Dosovitskiy, A. et al. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR. link ↗
Touvron, H. et al. (2021). Training Data-Efficient Image Transformers. ICML. link ↗

Cómo citar esta página

ScholarGate. (2026, June 1). Vision Transformer (ViT). ScholarGate. https://scholargate.app/es/deep-learning/vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Modelo de difusiónAprendizaje profundo↔ compare
Red Generativa AntagónicaAprendizaje profundo↔ compare
Random ForestAprendizaje automático↔ compare
Máquina de Vectores de Soporte (Clasificación)Aprendizaje automático↔ compare
Autoencoder VariacionalAprendizaje profundo↔ compare

Compare side by side →

Citado por

Ajuste fino de BERT CLIP Transformador de Adaptación de Dominio Vision Transformer Adaptativo al Dominio Transformador de Visión Explicable Vision Transformer (ViT) de ajuste fino Ajuste fino de GPT Clasificación de imágenes Redes Kolmogorov-Arnold LoRA y PEFT Mamba (modelo de espacio de estados)Autoencoders enmascarados Vision Transformer multilingüe Clasificación multimodal basada en BERT Procesamiento del Lenguaje Natural Multimodal Segmentación Semántica Multimodal Transformador Multimodal Multimodal Vision Transformer Modelo de Segmentación de Cualquier Cosa Self-supervised GAN Clasificación de imágenes auto-supervisada Segmentación de instancias auto-supervisada Segmentación Semántica Auto-supervisada Vision Transformer Autocontrolado Vision Transformer semisupervisado SimCLR Redes neuronales convolucionales espacio-temporales de grafos Swin Transformer TimeGPT Visión Mamba Detección de Objetos Débilmente Supervisada Vision Transformer con Supervisión Débil

¿Has visto un problema en esta página? Infórmanos o sugiere una corrección →

Leer el método completo

Method map

Fuentes

Cómo citar esta página

Métodos relacionados

Which method?

Citado por