Vision Transformer cu Supraveghere Slabă
Vision Transformer cu Supraveghere Slabă (WS-ViT) antrenează un Vision Transformer pe date imagistice care nu dispun de adnotări precise la nivel de pixel, utilizând în schimb supraveghere mai ieftină și mai zgomotoasă, cum ar fi etichete de clasă la nivel de imagine, casete de delimitare sau text extras de pe web. Mecanismul global de auto-atenție al transformerului îl face deosebit de capabil să localizeze obiecte și să învețe caracteristici discriminative din aceste etichete incomplete.
Citește metoda completă
Autentifică-te cu un cont gratuit pentru a citi această secțiune.
Method map
The neighbourhood of related methods — select a node to explore.
Surse
- Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An image is worth 16x16 words: Transformers for image recognition at scale. In International Conference on Learning Representations (ICLR). link ↗
- Zhou, Z.-H. (2022). A brief introduction to weakly supervised learning. National Science Review, 5(1), 44–53. DOI: 10.1093/nsr/nwx106 ↗
Cum se citează această pagină
ScholarGate. (2026, June 3). Weakly Supervised Vision Transformer (WS-ViT). ScholarGate. https://scholargate.app/ro/deep-learning/weakly-supervised-vision-transformer
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Distilarea cunoștințelorÎnvățare profundă↔ compare
- Învățare auto-supervizatăÎnvățare automată↔ compare
- Învățare semi-supervizatăÎnvățare automată↔ compare
- Vision TransformerÎnvățare profundă↔ compare
Ai observat o problemă pe această pagină? Raportează sau sugerează o corectură →