ScholarGate
Assistent
Machine learningDeep Learning, Vision Transformers

Swin Transformer

Die Kerninnovation des Swin Transformers ist der Mechanismus der verschobenen Fensteraufmerksamkeit. Traditionelle Transformer berechnen Aufmerksamkeit global über das gesamte Bild, was für hochauflösende Bilder prohibitiv teuer wird. Swin teilt das Bild stattdessen in Fenster auf und berechnet Selbstaufmerksamkeit innerhalb jedes Fensters, wodurch die Berechnung linear zur Bildgröße bleibt. Durch periodisches Verschieben der Fenstergrenzen können entfernte Regionen dennoch interagieren, was dem Modell ermöglicht, sowohl lokalen als auch globalen Kontext effizient zu erfassen. Die hierarchische Architektur spiegelt Convolutional Neural Networks wider, indem sie schrittweise die räumliche Auflösung reduziert und gleichzeitig die Kanaldimension erhöht.

In MethodMind öffnenDemnächstVideoDemnächstDownload slides

Die vollständige Methode lesen

Nur für Mitglieder

Melden Sie sich mit einem kostenlosen Konto an, um diesen Abschnitt zu lesen.

Anmelden

Method map

The neighbourhood of related methods — select a node to explore.

Quellen

  1. Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., Lin, S., & Guo, B. (2021). Swin Transformer: Hierarchical vision transformer using shifted windows. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 10012-10022). DOI: 10.1109/ICCV48922.2021.00986

So zitieren Sie diese Seite

ScholarGate. (2026, June 3). Shifted Window Transformer for Vision. ScholarGate. https://scholargate.app/de/deep-learning/swin-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Referenziert von

ScholarGateSwin Transformer (Shifted Window Transformer for Vision). Abgerufen am 2026-06-15 von https://scholargate.app/de/deep-learning/swin-transformer · Datensatz: https://doi.org/10.5281/zenodo.20539026