Vision Transformer
Sieć Vision Transformer (ViT), wprowadzona przez Dosovitskiy i współpracowników w 2021 roku, dzieli obraz na łaty o stałym rozmiarze, traktuje te łaty jako sekwencję i stosuje mechanizm uwagi własnej (self-attention) z architektury Transformer do klasyfikacji obrazów. Przy wystarczającej ilości danych treningowych przewyższa konwolucyjne sieci neuronowe (CNN).
Przeczytaj pełny opis metody
Zaloguj się na bezpłatne konto, aby przeczytać tę sekcję.
Method map
The neighbourhood of related methods — select a node to explore.
+27 more
Źródła
Jak cytować tę stronę
ScholarGate. (2026, June 1). Vision Transformer (ViT). ScholarGate. https://scholargate.app/pl/deep-learning/vision-transformer
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Model dyfuzyjnyUczenie głębokie↔ compare
- Generatywna Sieć AntagonistycznaUczenie głębokie↔ compare
- Random ForestUczenie maszynowe↔ compare
- Maszyna wektorów nośnych (klasyfikacja)Uczenie maszynowe↔ compare
- Autoenkoder wariacyjnyUczenie głębokie↔ compare
Cytowana przez
Widzisz błąd na tej stronie? Zgłoś go lub zaproponuj poprawkę →