ScholarGate
Assistente
Machine learningDeep learning / NLP / CV

Vision Transformer Spiegabile

Explainable Vision Transformer combina le elevate prestazioni di riconoscimento delle immagini dei Vision Transformer (ViT) con tecniche di attribuzione — come la propagazione della rilevanza, l'attention rollout o l'attention pesata dai gradienti — che evidenziano quali regioni dell'immagine guidano ciascuna predizione. L'approccio consente a ricercatori e professionisti di verificare le decisioni del modello e soddisfare i requisiti di trasparenza senza sacrificare l'accuratezza.

Apri in MethodMindIn arrivoVideoIn arrivoDownload slides

Leggi il metodo completo

Riservato ai membri

Accedi con un account gratuito per leggere questa sezione.

Accedi

Method map

The neighbourhood of related methods — select a node to explore.

Fonti

  1. Chefer, H., Gur, S., & Wolf, L. (2021). Transformer interpretability beyond attention visualization. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 782–791. DOI: 10.1109/CVPR46437.2021.00084
  2. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., … Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In International Conference on Learning Representations (ICLR). link

Come citare questa pagina

ScholarGate. (2026, June 3). Explainable Vision Transformer (XViT / ViT with Post-hoc Attribution). ScholarGate. https://scholargate.app/it/deep-learning/explainable-vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Citato da

ScholarGateExplainable Vision Transformer (Explainable Vision Transformer (XViT / ViT with Post-hoc Attribution)). Consultato il 2026-06-15 da https://scholargate.app/it/deep-learning/explainable-vision-transformer · Insieme di dati: https://doi.org/10.5281/zenodo.20539026