Machine learningDeep Learning, Vision Transformers

Shifted Window Transformer for Vision

L'innovation centrale du Swin Transformer est le mécanisme d'attention par fenêtres décalées. Les transformeurs traditionnels calculent l'attention globalement sur l'ensemble de l'image, ce qui devient prohibitivement coûteux pour les images à haute résolution. Swin divise plutôt l'image en fenêtres et calcule l'auto-attention au sein de chaque fenêtre, maintenant ainsi le calcul linéaire par rapport à la taille de l'image. En décalant périodiquement les limites des fenêtres, des régions distantes peuvent toujours interagir, permettant au modèle de capturer efficacement le contexte local et global. L'architecture hiérarchique imite les réseaux neuronaux convolutifs, réduisant progressivement la résolution spatiale tout en augmentant la dimension des canaux.

Ouvrir dans MethodMindBientôtVidéoBientôtDownload slides

Lire la méthode complète

Réservé aux membres

Connectez-vous avec un compte gratuit pour lire cette section.

Se connecter

Method map

The neighbourhood of related methods — select a node to explore.

Sources

  1. Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., Lin, S., & Guo, B. (2021). Swin Transformer: Hierarchical vision transformer using shifted windows. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 10012-10022). DOI: 10.1109/ICCV48922.2021.00986

Comment citer cette page

ScholarGate. (2026, June 3). Shifted Window Transformer for Vision. ScholarGate. https://scholargate.app/fr/deep-learning/swin-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Référencée par

ScholarGateSwin Transformer (Shifted Window Transformer for Vision). Consulté le 2026-06-15 sur https://scholargate.app/fr/deep-learning/swin-transformer · Jeu de données : https://doi.org/10.5281/zenodo.20539026