Vision Transformer (ViT) fin-tunat
Vision Transformer (ViT) fin-tunat adaptează un model ViT mare, pre-antrenat — care împarte imaginile în patch-uri de dimensiuni fixe și le procesează prin straturi de auto-atenție — pentru o nouă sarcină de clasificare sau recunoaștere a imaginilor, utilizând un set de date etichetat relativ mic. Acesta atinge o acuratețe de ultimă generație (state-of-the-art) în viziunea computerizată, valorificând reprezentările bogate învățate în timpul pre-antrenării la scară largă.
Citește metoda completă
Autentifică-te cu un cont gratuit pentru a citi această secțiune.
Method map
The neighbourhood of related methods — select a node to explore.
+4 more
Surse
- Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In International Conference on Learning Representations (ICLR 2021). link ↗
- Zhai, X., Kolesnikov, A., Houlsby, N., & Beyer, L. (2022). Scaling Vision Transformers. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2022), pp. 12104-12113. link ↗
Cum se citează această pagină
ScholarGate. (2026, June 3). Fine-Tuned Vision Transformer (ViT with Task-Specific Adaptation). ScholarGate. https://scholargate.app/ro/deep-learning/fine-tuned-vision-transformer
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Clasificare bazată pe BERTÎnvățare profundă↔ compare
- Rețea neuronală convoluțională (CNN) ajustată fin (Fine-Tuned)Învățare profundă↔ compare
- Clasificarea ImaginilorÎnvățare profundă↔ compare
- Segmentare semanticăÎnvățare profundă↔ compare
- Vision TransformerÎnvățare profundă↔ compare
Citat de
Ai observat o problemă pe această pagină? Raportează sau sugerează o corectură →