Machine learningDeep learning / NLP / CV

Transformador de Visión Explicable

Explainable Vision Transformer combina el potente rendimiento de reconocimiento de imágenes de los Vision Transformers (ViT) con técnicas de atribución —como propagación de relevancia, atención desplegada (attention rollout) o atención ponderada por gradiente— que resaltan qué regiones de la imagen impulsan cada predicción. El enfoque permite a investigadores y profesionales auditar las decisiones del modelo y cumplir con los requisitos de transparencia sin sacrificar la precisión.

Abrir en MethodMindPróximamenteVídeoPróximamenteDownload slides

Leer el método completo

Solo para miembros

Inicia sesión con una cuenta gratuita para leer esta sección.

Iniciar sesión

Method map

The neighbourhood of related methods — select a node to explore.

Fuentes

  1. Chefer, H., Gur, S., & Wolf, L. (2021). Transformer interpretability beyond attention visualization. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 782–791. DOI: 10.1109/CVPR46437.2021.00084
  2. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., … Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In International Conference on Learning Representations (ICLR). link

Cómo citar esta página

ScholarGate. (2026, June 3). Explainable Vision Transformer (XViT / ViT with Post-hoc Attribution). ScholarGate. https://scholargate.app/es/deep-learning/explainable-vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Citado por

ScholarGateExplainable Vision Transformer (Explainable Vision Transformer (XViT / ViT with Post-hoc Attribution)). Recuperado el 2026-06-15 de https://scholargate.app/es/deep-learning/explainable-vision-transformer · Conjunto de datos: https://doi.org/10.5281/zenodo.20539026