Feinabgestimmter Vision Transformer
Ein feinabgestimmter Vision Transformer (ViT) passt ein großes, vortrainiertes ViT-Modell – das Bilder in gleichgroße Patches aufteilt und diese durch Self-Attention-Schichten verarbeitet – mithilfe eines relativ kleinen, gelabelten Datensatzes an eine neue Bildklassifizierungs- oder Erkennungsaufgabe an. Er erzielt Spitzenleistungen bei der Genauigkeit im Computer Vision, indem er die während des groß angelegten Vortrainings erlernten reichhaltigen Repräsentationen nutzt.
Die vollständige Methode lesen
Melden Sie sich mit einem kostenlosen Konto an, um diesen Abschnitt zu lesen.
Method map
The neighbourhood of related methods — select a node to explore.
+4 more
Quellen
- Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In International Conference on Learning Representations (ICLR 2021). link ↗
- Zhai, X., Kolesnikov, A., Houlsby, N., & Beyer, L. (2022). Scaling Vision Transformers. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2022), pp. 12104-12113. link ↗
So zitieren Sie diese Seite
ScholarGate. (2026, June 3). Fine-Tuned Vision Transformer (ViT with Task-Specific Adaptation). ScholarGate. https://scholargate.app/de/deep-learning/fine-tuned-vision-transformer
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- BERT-basierte KlassifikationDeep Learning↔ compare
- Feinabgestimmtes Convolutional Neural NetworkDeep Learning↔ compare
- BildklassifizierungDeep Learning↔ compare
- Semantische SegmentierungDeep Learning↔ compare
- Vision TransformerDeep Learning↔ compare
Referenziert von
Einen Fehler auf dieser Seite entdeckt? Melden oder Korrektur vorschlagen →