Vision Transformer (ViT) Ajustado
O Vision Transformer (ViT) Ajustado adapta um grande modelo ViT pré-treinado — que divide imagens em patches de tamanho fixo e os processa através de camadas de auto-atenção — para uma nova tarefa de classificação ou reconhecimento de imagens usando um conjunto de dados rotulado relativamente pequeno. Ele atinge precisão de ponta em visão computacional ao alavancar representações ricas aprendidas durante o pré-treinamento em larga escala.
Leia o método completo
Entre com uma conta gratuita para ler esta seção.
Mapa de métodos
A vizinhança de métodos relacionados — selecione um nó para explorar.
+4 mais
Fontes
- Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In International Conference on Learning Representations (ICLR 2021). link ↗
- Zhai, X., Kolesnikov, A., Houlsby, N., & Beyer, L. (2022). Scaling Vision Transformers. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2022), pp. 12104-12113. link ↗
Como citar esta página
ScholarGate. (2026, June 3). Fine-Tuned Vision Transformer (ViT with Task-Specific Adaptation). ScholarGate. https://scholargate.app/pt/deep-learning/fine-tuned-vision-transformer
Qual método?
Coloque este método ao lado dos seus pares mais próximos e leia-os lado a lado — a biblioteca dispõe os livros sobre a mesa; a escolha é sua.
- Classificação baseada em BERTAprendizado profundo↔ comparar
- Rede neural convolucional ajustada finamenteAprendizado profundo↔ comparar
- Classificação de ImagensAprendizado profundo↔ comparar
- Segmentação semânticaAprendizado profundo↔ comparar
- Vision TransformerAprendizado profundo↔ comparar
Referenciado por
Encontrou um problema nesta página? Relate ou sugira uma correção →