ScholarGate
Assistente
Machine learningDeep learning / NLP / CV

Vision Transformer Auto-supervisionato

Il Vision Transformer auto-supervisionato (SSL-ViT) applica obiettivi di pre-addestramento auto-supervisionato — come la predizione di patch mascherate (MAE) o l'auto-distillazione senza etichette (DINO) — all'architettura Vision Transformer, consentendo l'apprendimento di potenti rappresentazioni visive da grandi corpus di immagini non etichettate prima di qualsiasi fine-tuning specifico per il compito.

Apri in MethodMindIn arrivoVideoIn arrivoDownload slides

Leggi il metodo completo

Riservato ai membri

Accedi con un account gratuito per leggere questa sezione.

Accedi

Method map

The neighbourhood of related methods — select a node to explore.

Fonti

  1. Caron, M., Touvron, H., Misra, I., Jegou, H., Mairal, J., Bojanowski, P., & Joulin, A. (2021). Emerging Properties in Self-Supervised Vision Transformers. Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 9650–9660. link
  2. He, K., Chen, X., Xie, S., Li, Y., Dollar, P., & Girshick, R. (2022). Masked Autoencoders Are Scalable Vision Learners. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 16000–16009. link

Come citare questa pagina

ScholarGate. (2026, June 3). Self-supervised Vision Transformer (SSL-ViT). ScholarGate. https://scholargate.app/it/deep-learning/self-supervised-vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Citato da

ScholarGateSelf-supervised Vision Transformer (Self-supervised Vision Transformer (SSL-ViT)). Consultato il 2026-06-15 da https://scholargate.app/it/deep-learning/self-supervised-vision-transformer · Insieme di dati: https://doi.org/10.5281/zenodo.20539026