Machine learningDeep learning / NLP / CV

Svagt övervakad Vision Transformer

Svagt övervakad Vision Transformer (WS-ViT) tränar en Vision Transformer på bilddata som saknar exakt pixel-nivå annoteringar, istället används billigare, brusigare övervakning såsom klassetiketter på bildnivå, avgränsningsramar eller webbskrapad text. Transformerens globala självuppmärksamhetsmekanism gör den särskilt kapabel att lokalisera objekt och lära sig diskriminerande drag från dessa ofullständiga etiketter.

Öppna i MethodMindSnartVideoSnartLadda ner bildspel

Läs hela metoden

Endast för medlemmar

Logga in med ett kostnadsfritt konto för att läsa avsnittet.

Logga in

Metodkarta

Närområdet av besläktade metoder — välj en nod för att utforska.

Svagt övervakad Vision Transformer

Kunskapsdestillering Självövervakad inlärning Semi-övervakad inlärning Vision Transformer

Källor

Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An image is worth 16x16 words: Transformers for image recognition at scale. In International Conference on Learning Representations (ICLR). link ↗
Zhou, Z.-H. (2022). A brief introduction to weakly supervised learning. National Science Review, 5(1), 44–53. DOI: 10.1093/nsr/nwx106 ↗

Så citerar du den här sidan

ScholarGate. (2026, June 3). Weakly Supervised Vision Transformer (WS-ViT). ScholarGate. https://scholargate.app/sv/deep-learning/weakly-supervised-vision-transformer

Vilken metod?

Placera den här metoden bredvid sina närmaste släktingar och läs dem sida vid sida — biblioteket lägger fram böckerna på bordet; valet är ditt.

KunskapsdestilleringDjupinlärning↔ jämför
Självövervakad inlärningMaskininlärning↔ jämför
Semi-övervakad inlärningMaskininlärning↔ jämför
Vision TransformerDjupinlärning↔ jämför

Jämför sida vid sida →

Hittade du ett fel på sidan? Rapportera eller föreslå en rättelse →