Machine learningDeep learning / NLP / CV

Vision Transformer faiblement supervisé

Le Vision Transformer faiblement supervisé (WS-ViT) entraîne un Vision Transformer sur des données d'images qui manquent d'annotations précises au niveau des pixels, utilisant plutôt une supervision moins coûteuse et plus bruitée, telle que des étiquettes de classe au niveau de l'image, des boîtes englobantes ou du texte extrait du web. Le mécanisme d'auto-attention globale du transformeur le rend particulièrement apte à localiser des objets et à apprendre des caractéristiques discriminantes à partir de ces étiquettes incomplètes.

Ouvrir dans MethodMindBientôtVidéoBientôtDownload slides

Lire la méthode complète

Réservé aux membres

Connectez-vous avec un compte gratuit pour lire cette section.

Se connecter

Method map

The neighbourhood of related methods — select a node to explore.

Sources

  1. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An image is worth 16x16 words: Transformers for image recognition at scale. In International Conference on Learning Representations (ICLR). link
  2. Zhou, Z.-H. (2022). A brief introduction to weakly supervised learning. National Science Review, 5(1), 44–53. DOI: 10.1093/nsr/nwx106

Comment citer cette page

ScholarGate. (2026, June 3). Weakly Supervised Vision Transformer (WS-ViT). ScholarGate. https://scholargate.app/fr/deep-learning/weakly-supervised-vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side
ScholarGateWeakly supervised vision transformer (Weakly Supervised Vision Transformer (WS-ViT)). Consulté le 2026-06-15 sur https://scholargate.app/fr/deep-learning/weakly-supervised-vision-transformer · Jeu de données : https://doi.org/10.5281/zenodo.20539026