Machine learningDeep learning / NLP / CV

Vision Transformer (ViT) de ajuste fino

Vision Transformer (ViT) de ajuste fino adapta un gran modelo ViT preentrenado — que divide las imágenes en parches de tamaño fijo y los procesa a través de capas de autoatención — a una nueva tarea de clasificación o reconocimiento de imágenes utilizando un conjunto de datos etiquetado relativamente pequeño. Logra una precisión de vanguardia en visión por computadora al aprovechar las ricas representaciones aprendidas durante el preentrenamiento a gran escala.

Abrir en MethodMindPróximamenteVídeoPróximamenteDescargar diapositivas

Leer el método completo

Solo para miembros

Inicia sesión con una cuenta gratuita para leer esta sección.

Iniciar sesión

Mapa de métodos

El vecindario de métodos relacionados: selecciona un nodo para explorarlo.

Vision Transformer (ViT) de ajuste fino

Clasificación basada en…Red de Convolución (CNN)…Clasificación de imágenes Segmentación semántica Vision Transformer Vision Transformer Adapt…Modelo de difusión afina…Red Neuronal Generativa…Clasificación de Imágene…Segmentación semántica a…

+4 más

Fuentes

Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In International Conference on Learning Representations (ICLR 2021). link ↗
Zhai, X., Kolesnikov, A., Houlsby, N., & Beyer, L. (2022). Scaling Vision Transformers. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2022), pp. 12104-12113. link ↗

Cómo citar esta página

ScholarGate. (2026, June 3). Fine-Tuned Vision Transformer (ViT with Task-Specific Adaptation). ScholarGate. https://scholargate.app/es/deep-learning/fine-tuned-vision-transformer

¿Qué método?

Coloca este método junto a sus parientes más cercanos y léelos lado a lado: la biblioteca pone los libros sobre la mesa; la elección es tuya.

Clasificación basada en BERTAprendizaje profundo↔ comparar
Red de Convolución (CNN) Ajustada FinamenteAprendizaje profundo↔ comparar
Clasificación de imágenesAprendizaje profundo↔ comparar
Segmentación semánticaAprendizaje profundo↔ comparar
Vision TransformerAprendizaje profundo↔ comparar

Comparar lado a lado →

Citado por

Vision Transformer Adaptativo al Dominio Red de Convolución (CNN) Ajustada Finamente Modelo de difusión afinado Red Neuronal Generativa Adversaria Finamente Ajustada Clasificación de Imágenes Mediante Ajuste Fino Segmentación semántica ajustada finamente Multimodal Vision Transformer Vision Transformer Autocontrolado Vision Transformer semisupervisado Aprendizaje por transferencia con clasificación de imágenes

¿Has visto un problema en esta página? Infórmanos o sugiere una corrección →

Leer el método completo

Mapa de métodos

Fuentes

Cómo citar esta página

Métodos relacionados

¿Qué método?

Citado por