Svagt övervakad Vision Transformer
Svagt övervakad Vision Transformer (WS-ViT) tränar en Vision Transformer på bilddata som saknar exakt pixel-nivå annoteringar, istället används billigare, brusigare övervakning såsom klassetiketter på bildnivå, avgränsningsramar eller webbskrapad text. Transformerens globala självuppmärksamhetsmekanism gör den särskilt kapabel att lokalisera objekt och lära sig diskriminerande drag från dessa ofullständiga etiketter.
Läs hela metoden
Logga in med ett kostnadsfritt konto för att läsa avsnittet.
Metodkarta
Närområdet av besläktade metoder — välj en nod för att utforska.
Källor
- Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An image is worth 16x16 words: Transformers for image recognition at scale. In International Conference on Learning Representations (ICLR). link ↗
- Zhou, Z.-H. (2022). A brief introduction to weakly supervised learning. National Science Review, 5(1), 44–53. DOI: 10.1093/nsr/nwx106 ↗
Så citerar du den här sidan
ScholarGate. (2026, June 3). Weakly Supervised Vision Transformer (WS-ViT). ScholarGate. https://scholargate.app/sv/deep-learning/weakly-supervised-vision-transformer
Vilken metod?
Placera den här metoden bredvid sina närmaste släktingar och läs dem sida vid sida — biblioteket lägger fram böckerna på bordet; valet är ditt.
- KunskapsdestilleringDjupinlärning↔ jämför
- Självövervakad inlärningMaskininlärning↔ jämför
- Semi-övervakad inlärningMaskininlärning↔ jämför
- Vision TransformerDjupinlärning↔ jämför
Hittade du ett fel på sidan? Rapportera eller föreslå en rättelse →