Vision Transformer
Il Vision Transformer (ViT), introdotto da Dosovitskiy e colleghi nel 2021, scompone un'immagine in patch di dimensioni fisse, le tratta come una sequenza e applica il meccanismo di auto-attenzione del Transformer alla classificazione delle immagini. Con dati di addestramento sufficienti, supera le reti neurali convoluzionali (CNN).
Leggi il metodo completo
Accedi con un account gratuito per leggere questa sezione.
Method map
The neighbourhood of related methods — select a node to explore.
+27 more
Fonti
Come citare questa pagina
ScholarGate. (2026, June 1). Vision Transformer (ViT). ScholarGate. https://scholargate.app/it/deep-learning/vision-transformer
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Modello di diffusioneApprendimento profondo↔ compare
- Rete Generativa AvversariaApprendimento profondo↔ compare
- Random ForestApprendimento automatico↔ compare
- Support Vector Machine (Classificazione)Apprendimento automatico↔ compare
- Variational AutoencoderApprendimento profondo↔ compare
Citato da
Hai notato un problema in questa pagina? Segnalalo o proponi una correzione →