Machine learningDeep Learning, Vision Transformers

Swin Transformer

Die Kerninnovation des Swin Transformers ist der Mechanismus der verschobenen Fensteraufmerksamkeit. Traditionelle Transformer berechnen Aufmerksamkeit global über das gesamte Bild, was für hochauflösende Bilder prohibitiv teuer wird. Swin teilt das Bild stattdessen in Fenster auf und berechnet Selbstaufmerksamkeit innerhalb jedes Fensters, wodurch die Berechnung linear zur Bildgröße bleibt. Durch periodisches Verschieben der Fenstergrenzen können entfernte Regionen dennoch interagieren, was dem Modell ermöglicht, sowohl lokalen als auch globalen Kontext effizient zu erfassen. Die hierarchische Architektur spiegelt Convolutional Neural Networks wider, indem sie schrittweise die räumliche Auflösung reduziert und gleichzeitig die Kanaldimension erhöht.

In MethodMind öffnenDemnächstVideoDemnächstDownload slides

Die vollständige Methode lesen

Nur für Mitglieder

Melden Sie sich mit einem kostenlosen Konto an, um diesen Abschnitt zu lesen.

Anmelden

Method map

The neighbourhood of related methods — select a node to explore.

Swin Transformer

DETR (Detection Transfor…Masked Autoencoders Vision Mamba Vision Transformer Few-Shot-Objekterkennung Segment Anything Model SimCLR Räumlich-zeitliche Graph…

Quellen

Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., Lin, S., & Guo, B. (2021). Swin Transformer: Hierarchical vision transformer using shifted windows. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 10012-10022). DOI: 10.1109/ICCV48922.2021.00986 ↗

So zitieren Sie diese Seite

ScholarGate. (2026, June 3). Shifted Window Transformer for Vision. ScholarGate. https://scholargate.app/de/deep-learning/swin-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

DETR (Detection Transformer)Deep Learning↔ compare
Masked AutoencodersDeep Learning↔ compare
Vision MambaDeep Learning↔ compare
Vision TransformerDeep Learning↔ compare

Compare side by side →

Referenziert von

DETR (Detection Transformer)Few-Shot-Objekterkennung Masked Autoencoders Segment Anything Model SimCLR Räumlich-zeitliche Graph-Faltungsnetzwerke Vision Mamba

Einen Fehler auf dieser Seite entdeckt? Melden oder Korrektur vorschlagen →

Die vollständige Methode lesen

Method map

Quellen

So zitieren Sie diese Seite

Verwandte Methoden

Which method?

Referenziert von