ScholarGate
Assistent
Machine learningDeep learning / NLP / CV

Svagt övervakad Vision Transformer

Svagt övervakad Vision Transformer (WS-ViT) tränar en Vision Transformer på bilddata som saknar exakt pixel-nivå annoteringar, istället används billigare, brusigare övervakning såsom klassetiketter på bildnivå, avgränsningsramar eller webbskrapad text. Transformerens globala självuppmärksamhetsmekanism gör den särskilt kapabel att lokalisera objekt och lära sig diskriminerande drag från dessa ofullständiga etiketter.

Öppna i MethodMindSnartVideoSnartLadda ner bildspel

Läs hela metoden

Endast för medlemmar

Logga in med ett kostnadsfritt konto för att läsa avsnittet.

Logga in

Metodkarta

Närområdet av besläktade metoder — välj en nod för att utforska.

Källor

  1. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An image is worth 16x16 words: Transformers for image recognition at scale. In International Conference on Learning Representations (ICLR). link
  2. Zhou, Z.-H. (2022). A brief introduction to weakly supervised learning. National Science Review, 5(1), 44–53. DOI: 10.1093/nsr/nwx106

Så citerar du den här sidan

ScholarGate. (2026, June 3). Weakly Supervised Vision Transformer (WS-ViT). ScholarGate. https://scholargate.app/sv/deep-learning/weakly-supervised-vision-transformer

Vilken metod?

Placera den här metoden bredvid sina närmaste släktingar och läs dem sida vid sida — biblioteket lägger fram böckerna på bordet; valet är ditt.

Jämför sida vid sida
ScholarGateWeakly supervised vision transformer (Weakly Supervised Vision Transformer (WS-ViT)). Hämtad 2026-06-15 från https://scholargate.app/sv/deep-learning/weakly-supervised-vision-transformer · Datamängd: https://doi.org/10.5281/zenodo.20539026