ScholarGate
Assistent
Machine learning

Vision Transformer

Der Vision Transformer (ViT), eingeführt von Dosovitskiy und Kollegen im Jahr 2021, teilt ein Bild in Patches fester Größe auf, behandelt diese Patches als Sequenz und wendet den Transformer-Self-Attention-Mechanismus auf die Bildklassifizierung an. Bei ausreichend Trainingsdaten übertrifft er Convolutional Neural Networks (CNNs).

In MethodMind öffnenDemnächstVideoDemnächstDownload slides

Die vollständige Methode lesen

Nur für Mitglieder

Melden Sie sich mit einem kostenlosen Konto an, um diesen Abschnitt zu lesen.

Anmelden

Method map

The neighbourhood of related methods — select a node to explore.

+27 more

Quellen

  1. Dosovitskiy, A. et al. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR. link
  2. Touvron, H. et al. (2021). Training Data-Efficient Image Transformers. ICML. link

So zitieren Sie diese Seite

ScholarGate. (2026, June 1). Vision Transformer (ViT). ScholarGate. https://scholargate.app/de/deep-learning/vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Referenziert von

ScholarGateVision Transformer (Vision Transformer (ViT)). Abgerufen am 2026-06-15 von https://scholargate.app/de/deep-learning/vision-transformer · Datensatz: https://doi.org/10.5281/zenodo.20539026