Finjusterad Vision Transformer
Finjusterad Vision Transformer (Fine-Tuned ViT) anpassar en stor förtränad ViT-modell – som delar upp bilder i patchar av fast storlek och bearbetar dem genom självuppmärksamhetslager – till en ny uppgift för bildklassificering eller igenkänning med hjälp av en relativt liten märkt datamängd. Den uppnår toppmodern noggrannhet inom datorseende genom att utnyttja rika representationer som lärts under storskalig förträning.
Läs hela metoden
Logga in med ett kostnadsfritt konto för att läsa avsnittet.
Metodkarta
Närområdet av besläktade metoder — välj en nod för att utforska.
+4 till
Källor
- Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In International Conference on Learning Representations (ICLR 2021). link ↗
- Zhai, X., Kolesnikov, A., Houlsby, N., & Beyer, L. (2022). Scaling Vision Transformers. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2022), pp. 12104-12113. link ↗
Så citerar du den här sidan
ScholarGate. (2026, June 3). Fine-Tuned Vision Transformer (ViT with Task-Specific Adaptation). ScholarGate. https://scholargate.app/sv/deep-learning/fine-tuned-vision-transformer
Vilken metod?
Placera den här metoden bredvid sina närmaste släktingar och läs dem sida vid sida — biblioteket lägger fram böckerna på bordet; valet är ditt.
- BERT-baserad klassificeringDjupinlärning↔ jämför
- Finjusterad faltningsnät (CNN)Djupinlärning↔ jämför
- BildklassificeringDjupinlärning↔ jämför
- Semantisk segmenteringDjupinlärning↔ jämför
- Vision TransformerDjupinlärning↔ jämför
Refereras av
Hittade du ett fel på sidan? Rapportera eller föreslå en rättelse →