المحول البصري القابل للتفسير (Explainable Vision Transformer)
يجمع المحول البصري القابل للتفسير بين الأداء القوي للتعرف على الصور لمحوّلات الرؤية (ViT) وتقنيات الإسناد — مثل انتشار الصلة (relevance propagation)، أو تدوير الانتباه (attention rollout)، أو الانتباه الموزون بالتدرج (gradient-weighted attention) — التي تسلط الضوء على مناطق الصورة التي تدفع كل تنبؤ. يُمكّن هذا النهج الباحثين والممارسين من تدقيق قرارات النموذج وتلبية متطلبات الشفافية دون التضحية بالدقة.
اقرأ الطريقة كاملة
سجّل الدخول بحساب مجاني لقراءة هذا القسم.
Method map
The neighbourhood of related methods — select a node to explore.
المصادر
- Chefer, H., Gur, S., & Wolf, L. (2021). Transformer interpretability beyond attention visualization. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 782–791. DOI: 10.1109/CVPR46437.2021.00084 ↗
- Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., … Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In International Conference on Learning Representations (ICLR). link ↗
كيف تستشهد بهذه الصفحة
ScholarGate. (2026, June 3). Explainable Vision Transformer (XViT / ViT with Post-hoc Attribution). ScholarGate. https://scholargate.app/ar/deep-learning/explainable-vision-transformer
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- تصنيف الصورالتعلم العميق↔ compare
- المُحوِّل البصري متعدد الوسائط (Multimodal ViT)التعلم العميق↔ compare
- محول الرؤية ذاتي الإشرافالتعلم العميق↔ compare
- التجزئة الدلاليةالتعلم العميق↔ compare
- محوّل الرؤيةالتعلم العميق↔ compare