Explainable Vision Transformer
Explainable Vision Transformer łączy wysoką skuteczność rozpoznawania obrazów przez Vision Transformers (ViT) z technikami atrybucji — takimi jak propagacja istotności (relevance propagation), rozwijanie uwagi (attention rollout) czy ważona gradientem uwaga (gradient-weighted attention) — które uwypuklają, które regiony obrazu napędzają każdą predykcję. Podejście to umożliwia badaczom i praktykom audytowanie decyzji modelu oraz spełnianie wymogów przejrzystości bez poświęcania dokładności.
Przeczytaj pełny opis metody
Zaloguj się na bezpłatne konto, aby przeczytać tę sekcję.
Method map
The neighbourhood of related methods — select a node to explore.
Źródła
- Chefer, H., Gur, S., & Wolf, L. (2021). Transformer interpretability beyond attention visualization. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 782–791. DOI: 10.1109/CVPR46437.2021.00084 ↗
- Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., … Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In International Conference on Learning Representations (ICLR). link ↗
Jak cytować tę stronę
ScholarGate. (2026, June 3). Explainable Vision Transformer (XViT / ViT with Post-hoc Attribution). ScholarGate. https://scholargate.app/pl/deep-learning/explainable-vision-transformer
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Klasyfikacja obrazówUczenie głębokie↔ compare
- Multimodal Vision TransformerUczenie głębokie↔ compare
- Samonadzorowane Vision TransformerUczenie głębokie↔ compare
- Segmentacja semantycznaUczenie głębokie↔ compare
- Vision TransformerUczenie głębokie↔ compare
Cytowana przez
Widzisz błąd na tej stronie? Zgłoś go lub zaproponuj poprawkę →