Machine learningDeep Learning, Vision Transformers

Shifted Window Transformer for Vision

L'innovation centrale du Swin Transformer est le mécanisme d'attention par fenêtres décalées. Les transformeurs traditionnels calculent l'attention globalement sur l'ensemble de l'image, ce qui devient prohibitivement coûteux pour les images à haute résolution. Swin divise plutôt l'image en fenêtres et calcule l'auto-attention au sein de chaque fenêtre, maintenant ainsi le calcul linéaire par rapport à la taille de l'image. En décalant périodiquement les limites des fenêtres, des régions distantes peuvent toujours interagir, permettant au modèle de capturer efficacement le contexte local et global. L'architecture hiérarchique imite les réseaux neuronaux convolutifs, réduisant progressivement la résolution spatiale tout en augmentant la dimension des canaux.

Ouvrir dans MethodMindBientôtVidéoBientôtDownload slides

Lire la méthode complète

Réservé aux membres

Connectez-vous avec un compte gratuit pour lire cette section.

Se connecter

Method map

The neighbourhood of related methods — select a node to explore.

Swin Transformer

DETR (Detection Transfor…Autoencodeurs masqués Mamba Vision Vision Transformer Détection d'objets à peu…Modèle Segment Anything SimCLR Réseaux de convolution s…

Sources

Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., Lin, S., & Guo, B. (2021). Swin Transformer: Hierarchical vision transformer using shifted windows. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 10012-10022). DOI: 10.1109/ICCV48922.2021.00986 ↗

Comment citer cette page

ScholarGate. (2026, June 3). Shifted Window Transformer for Vision. ScholarGate. https://scholargate.app/fr/deep-learning/swin-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

DETR (Detection Transformer)Apprentissage profond↔ compare
Autoencodeurs masquésApprentissage profond↔ compare
Mamba VisionApprentissage profond↔ compare
Vision TransformerApprentissage profond↔ compare

Compare side by side →

Référencée par

DETR (Detection Transformer)Détection d'objets à peu d'exemples Autoencodeurs masqués Modèle Segment Anything SimCLR Réseaux de convolution sur graphes spatio-temporels Mamba Vision

Une erreur sur cette page ? Signalez-la ou proposez une correction →

Lire la méthode complète

Method map

Sources

Comment citer cette page

Méthodes apparentées

Which method?

Référencée par