Transformeur Vision Ajusté
Le Transformeur Vision Ajusté adapte un grand modèle ViT pré-entraîné — qui divise les images en patchs de taille fixe et les traite via des couches d'auto-attention — à une nouvelle tâche de classification ou de reconnaissance d'images en utilisant un ensemble de données étiquetées relativement petit. Il atteint une précision de pointe en vision par ordinateur en tirant parti des représentations riches apprises lors du pré-entraînement à grande échelle.
Lire la méthode complète
Connectez-vous avec un compte gratuit pour lire cette section.
Carte des méthodes
Le voisinage des méthodes apparentées — sélectionnez un nœud pour explorer.
+4 de plus
Sources
- Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In International Conference on Learning Representations (ICLR 2021). link ↗
- Zhai, X., Kolesnikov, A., Houlsby, N., & Beyer, L. (2022). Scaling Vision Transformers. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2022), pp. 12104-12113. link ↗
Comment citer cette page
ScholarGate. (2026, June 3). Fine-Tuned Vision Transformer (ViT with Task-Specific Adaptation). ScholarGate. https://scholargate.app/fr/deep-learning/fine-tuned-vision-transformer
Quelle méthode ?
Placez cette méthode aux côtés de ses plus proches parentes et lisez-les côte à côte — la bibliothèque pose les ouvrages sur la table ; le choix vous revient.
- Classification basée sur BERTApprentissage profond↔ comparer
- Réseau neuronal convolutif affinéApprentissage profond↔ comparer
- Classification d'imagesApprentissage profond↔ comparer
- Segmentation sémantiqueApprentissage profond↔ comparer
- Vision TransformerApprentissage profond↔ comparer
Référencée par
Une erreur sur cette page ? Signalez-la ou proposez une correction →