Machine learning

Vision Transformer

Sieć Vision Transformer (ViT), wprowadzona przez Dosovitskiy i współpracowników w 2021 roku, dzieli obraz na łaty o stałym rozmiarze, traktuje te łaty jako sekwencję i stosuje mechanizm uwagi własnej (self-attention) z architektury Transformer do klasyfikacji obrazów. Przy wystarczającej ilości danych treningowych przewyższa konwolucyjne sieci neuronowe (CNN).

Otwórz w MethodMindWkrótceWideoWkrótceDownload slides

Przeczytaj pełny opis metody

Tylko dla członków

Zaloguj się na bezpłatne konto, aby przeczytać tę sekcję.

Zaloguj się

Method map

The neighbourhood of related methods — select a node to explore.

Vision Transformer

Model dyfuzyjny Generatywna Sieć Antagon…Random Forest Maszyna wektorów nośnych…Autoenkoder wariacyjny Dostrajanie BERT CLIP Transformator adaptacyjn…Adaptacyjny Wizualny Tra…Explainable Vision Trans…

+27 more

Źródła

Dosovitskiy, A. et al. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR. link ↗
Touvron, H. et al. (2021). Training Data-Efficient Image Transformers. ICML. link ↗

Jak cytować tę stronę

ScholarGate. (2026, June 1). Vision Transformer (ViT). ScholarGate. https://scholargate.app/pl/deep-learning/vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Model dyfuzyjnyUczenie głębokie↔ compare
Generatywna Sieć AntagonistycznaUczenie głębokie↔ compare
Random ForestUczenie maszynowe↔ compare
Maszyna wektorów nośnych (klasyfikacja)Uczenie maszynowe↔ compare
Autoenkoder wariacyjnyUczenie głębokie↔ compare

Compare side by side →

Cytowana przez

Dostrajanie BERT CLIP Transformator adaptacyjny do dziedziny Adaptacyjny Wizualny Transformer Explainable Vision Transformer Dostrojony Vision Transformer Dostrajanie GPT Klasyfikacja obrazów Sieci Kołmogorowa-Arnolda LoRA i PEFT Mamba (model przestrzeni stanów)Zamaskowane autoenkodery Wielojęzyczny Transformer Wizyjny Klasyfikacja multimodalna oparta na BERT Przetwarzanie języka naturalnego (NLP) multimodalne Segmentacja semantyczna multimodalna Transformator multimodalny Multimodal Vision Transformer Model Segment Anything Samo-nadzorowana sieć GAN Samouczenie się klasyfikacji obrazów Samouczenie segmentacji instancji Samonadzorowana segmentacja semantyczna Samonadzorowane Vision Transformer Półnadzorowany Vision Transformer SimCLR Przestrzenno-czasowe sieci konwolucyjne na grafach Swin Transformer TimeGPT Mamba Wizyjny Wykrywanie obiektów ze słabym nadzorem Słabo nadzorowany Vision Transformer

Widzisz błąd na tej stronie? Zgłoś go lub zaproponuj poprawkę →

Przeczytaj pełny opis metody

Method map

Źródła

Jak cytować tę stronę

Metody pokrewne

Which method?

Cytowana przez