Dostrojony Vision Transformer
Dostrojony Vision Transformer (Fine-Tuned Vision Transformer) adaptuje duży, wstępnie wytrenowany model ViT — który dzieli obrazy na łaty o stałym rozmiarze i przetwarza je za pomocą warstw samo-uwagi — do nowego zadania klasyfikacji lub rozpoznawania obrazów przy użyciu stosunkowo małego zbioru danych z etykietami. Osiąga najnowocześniejszą dokładność w dziedzinie widzenia komputerowego, wykorzystując bogate reprezentacje nauczone podczas wstępnego trenowania na dużą skalę.
Przeczytaj pełny opis metody
Zaloguj się na bezpłatne konto, aby przeczytać tę sekcję.
Method map
The neighbourhood of related methods — select a node to explore.
+4 more
Źródła
- Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In International Conference on Learning Representations (ICLR 2021). link ↗
- Zhai, X., Kolesnikov, A., Houlsby, N., & Beyer, L. (2022). Scaling Vision Transformers. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2022), pp. 12104-12113. link ↗
Jak cytować tę stronę
ScholarGate. (2026, June 3). Fine-Tuned Vision Transformer (ViT with Task-Specific Adaptation). ScholarGate. https://scholargate.app/pl/deep-learning/fine-tuned-vision-transformer
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Klasyfikacja oparta na BERTUczenie głębokie↔ compare
- Dostrojona konwolucyjna sieć neuronowaUczenie głębokie↔ compare
- Klasyfikacja obrazówUczenie głębokie↔ compare
- Segmentacja semantycznaUczenie głębokie↔ compare
- Vision TransformerUczenie głębokie↔ compare
Cytowana przez
Widzisz błąd na tej stronie? Zgłoś go lub zaproponuj poprawkę →