Shifted Window Transformer for Vision
L'innovation centrale du Swin Transformer est le mécanisme d'attention par fenêtres décalées. Les transformeurs traditionnels calculent l'attention globalement sur l'ensemble de l'image, ce qui devient prohibitivement coûteux pour les images à haute résolution. Swin divise plutôt l'image en fenêtres et calcule l'auto-attention au sein de chaque fenêtre, maintenant ainsi le calcul linéaire par rapport à la taille de l'image. En décalant périodiquement les limites des fenêtres, des régions distantes peuvent toujours interagir, permettant au modèle de capturer efficacement le contexte local et global. L'architecture hiérarchique imite les réseaux neuronaux convolutifs, réduisant progressivement la résolution spatiale tout en augmentant la dimension des canaux.
Lire la méthode complète
Connectez-vous avec un compte gratuit pour lire cette section.
Method map
The neighbourhood of related methods — select a node to explore.
Sources
- Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., Lin, S., & Guo, B. (2021). Swin Transformer: Hierarchical vision transformer using shifted windows. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 10012-10022). DOI: 10.1109/ICCV48922.2021.00986 ↗
Comment citer cette page
ScholarGate. (2026, June 3). Shifted Window Transformer for Vision. ScholarGate. https://scholargate.app/fr/deep-learning/swin-transformer
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- DETR (Detection Transformer)Apprentissage profond↔ compare
- Autoencodeurs masquésApprentissage profond↔ compare
- Mamba VisionApprentissage profond↔ compare
- Vision TransformerApprentissage profond↔ compare
Référencée par
Une erreur sur cette page ? Signalez-la ou proposez une correction →