Swin Transformer
Die Kerninnovation des Swin Transformers ist der Mechanismus der verschobenen Fensteraufmerksamkeit. Traditionelle Transformer berechnen Aufmerksamkeit global über das gesamte Bild, was für hochauflösende Bilder prohibitiv teuer wird. Swin teilt das Bild stattdessen in Fenster auf und berechnet Selbstaufmerksamkeit innerhalb jedes Fensters, wodurch die Berechnung linear zur Bildgröße bleibt. Durch periodisches Verschieben der Fenstergrenzen können entfernte Regionen dennoch interagieren, was dem Modell ermöglicht, sowohl lokalen als auch globalen Kontext effizient zu erfassen. Die hierarchische Architektur spiegelt Convolutional Neural Networks wider, indem sie schrittweise die räumliche Auflösung reduziert und gleichzeitig die Kanaldimension erhöht.
Die vollständige Methode lesen
Melden Sie sich mit einem kostenlosen Konto an, um diesen Abschnitt zu lesen.
Method map
The neighbourhood of related methods — select a node to explore.
Quellen
- Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., Lin, S., & Guo, B. (2021). Swin Transformer: Hierarchical vision transformer using shifted windows. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 10012-10022). DOI: 10.1109/ICCV48922.2021.00986 ↗
So zitieren Sie diese Seite
ScholarGate. (2026, June 3). Shifted Window Transformer for Vision. ScholarGate. https://scholargate.app/de/deep-learning/swin-transformer
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- DETR (Detection Transformer)Deep Learning↔ compare
- Masked AutoencodersDeep Learning↔ compare
- Vision MambaDeep Learning↔ compare
- Vision TransformerDeep Learning↔ compare
Referenziert von
Einen Fehler auf dieser Seite entdeckt? Melden oder Korrektur vorschlagen →