Vision Transformer faiblement supervisé
Le Vision Transformer faiblement supervisé (WS-ViT) entraîne un Vision Transformer sur des données d'images qui manquent d'annotations précises au niveau des pixels, utilisant plutôt une supervision moins coûteuse et plus bruitée, telle que des étiquettes de classe au niveau de l'image, des boîtes englobantes ou du texte extrait du web. Le mécanisme d'auto-attention globale du transformeur le rend particulièrement apte à localiser des objets et à apprendre des caractéristiques discriminantes à partir de ces étiquettes incomplètes.
Lire la méthode complète
Connectez-vous avec un compte gratuit pour lire cette section.
Method map
The neighbourhood of related methods — select a node to explore.
Sources
- Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An image is worth 16x16 words: Transformers for image recognition at scale. In International Conference on Learning Representations (ICLR). link ↗
- Zhou, Z.-H. (2022). A brief introduction to weakly supervised learning. National Science Review, 5(1), 44–53. DOI: 10.1093/nsr/nwx106 ↗
Comment citer cette page
ScholarGate. (2026, June 3). Weakly Supervised Vision Transformer (WS-ViT). ScholarGate. https://scholargate.app/fr/deep-learning/weakly-supervised-vision-transformer
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Distillation de connaissancesApprentissage profond↔ compare
- Apprentissage auto-superviséApprentissage automatique↔ compare
- Apprentissage semi-superviséApprentissage automatique↔ compare
- Vision TransformerApprentissage profond↔ compare
Une erreur sur cette page ? Signalez-la ou proposez une correction →