Explainable Vision Transformer
Explainable Vision Transformer kombinerar den starka bildigenkänningsprestandan hos Vision Transformers (ViT) med attributeringstekniker – såsom relevanspropagering, attention rollout eller gradient-weighted attention – som belyser vilka bildregioner som driver varje prediktion. Metoden gör det möjligt för forskare och praktiker att granska modellbeslut och uppfylla krav på transparens utan att offra noggrannhet.
Läs hela metoden
Logga in med ett kostnadsfritt konto för att läsa avsnittet.
Method map
The neighbourhood of related methods — select a node to explore.
Källor
- Chefer, H., Gur, S., & Wolf, L. (2021). Transformer interpretability beyond attention visualization. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 782–791. DOI: 10.1109/CVPR46437.2021.00084 ↗
- Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., … Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In International Conference on Learning Representations (ICLR). link ↗
Så citerar du den här sidan
ScholarGate. (2026, June 3). Explainable Vision Transformer (XViT / ViT with Post-hoc Attribution). ScholarGate. https://scholargate.app/sv/deep-learning/explainable-vision-transformer
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- BildklassificeringDjupinlärning↔ compare
- Multimodal Vision TransformerDjupinlärning↔ compare
- Självövervakad Vision TransformerDjupinlärning↔ compare
- Semantisk segmenteringDjupinlärning↔ compare
- Vision TransformerDjupinlärning↔ compare
Refereras av
Hittade du ett fel på sidan? Rapportera eller föreslå en rättelse →