ScholarGate
Assistente
Machine learningDeep learning / NLP / CV

Vision Transformer (ViT) Ajustado

O Vision Transformer (ViT) Ajustado adapta um grande modelo ViT pré-treinado — que divide imagens em patches de tamanho fixo e os processa através de camadas de auto-atenção — para uma nova tarefa de classificação ou reconhecimento de imagens usando um conjunto de dados rotulado relativamente pequeno. Ele atinge precisão de ponta em visão computacional ao alavancar representações ricas aprendidas durante o pré-treinamento em larga escala.

Abrir no MethodMindEm breveVídeoEm breveBaixar slides

Leia o método completo

Exclusivo para membros

Entre com uma conta gratuita para ler esta seção.

Entrar

Mapa de métodos

A vizinhança de métodos relacionados — selecione um nó para explorar.

+4 mais

Fontes

  1. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In International Conference on Learning Representations (ICLR 2021). link
  2. Zhai, X., Kolesnikov, A., Houlsby, N., & Beyer, L. (2022). Scaling Vision Transformers. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2022), pp. 12104-12113. link

Como citar esta página

ScholarGate. (2026, June 3). Fine-Tuned Vision Transformer (ViT with Task-Specific Adaptation). ScholarGate. https://scholargate.app/pt/deep-learning/fine-tuned-vision-transformer

Qual método?

Coloque este método ao lado dos seus pares mais próximos e leia-os lado a lado — a biblioteca dispõe os livros sobre a mesa; a escolha é sua.

Comparar lado a lado

Referenciado por

ScholarGateFine-Tuned Vision Transformer (Fine-Tuned Vision Transformer (ViT with Task-Specific Adaptation)). Recuperado em 2026-06-15 de https://scholargate.app/pt/deep-learning/fine-tuned-vision-transformer · Conjunto de dados: https://doi.org/10.5281/zenodo.20539026