Erklärbarer Vision Transformer
Der Erklärbare Vision Transformer (Explainable Vision Transformer) kombiniert die starke Bilderkennungsleistung von Vision Transformern (ViT) mit Attributionsverfahren – wie Relevanzpropagation, Attention Rollout oder gradientengewichteter Aufmerksamkeit –, die hervorheben, welche Bildregionen jede Vorhersage steuern. Der Ansatz ermöglicht es Forschenden und Praktiker:innen, Modellentscheidungen zu überprüfen und Transparenzanforderungen zu erfüllen, ohne die Genauigkeit zu beeinträchtigen.
Die vollständige Methode lesen
Melden Sie sich mit einem kostenlosen Konto an, um diesen Abschnitt zu lesen.
Method map
The neighbourhood of related methods — select a node to explore.
Quellen
- Chefer, H., Gur, S., & Wolf, L. (2021). Transformer interpretability beyond attention visualization. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 782–791. DOI: 10.1109/CVPR46437.2021.00084 ↗
- Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., … Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In International Conference on Learning Representations (ICLR). link ↗
So zitieren Sie diese Seite
ScholarGate. (2026, June 3). Explainable Vision Transformer (XViT / ViT with Post-hoc Attribution). ScholarGate. https://scholargate.app/de/deep-learning/explainable-vision-transformer
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- BildklassifizierungDeep Learning↔ compare
- Multimodal Vision TransformerDeep Learning↔ compare
- Selbstüberwachtes Vision TransformerDeep Learning↔ compare
- Semantische SegmentierungDeep Learning↔ compare
- Vision TransformerDeep Learning↔ compare
Referenziert von
Einen Fehler auf dieser Seite entdeckt? Melden oder Korrektur vorschlagen →