ترنسفورمر بینایی
ترنسفورمر بینایی (ViT) که توسط دوسوویتسکی و همکارانش در سال ۲۰۲۱ معرفی شد، تصویر را به وصلههایی با اندازه ثابت تقسیم میکند، آن وصلهها را به عنوان یک دنباله در نظر میگیرد و از مکانیزم توجه به خود ترنسفورمر برای طبقهبندی تصویر استفاده میکند. با دادههای آموزشی کافی، از شبکههای عصبی کانولوشنی (CNN) پیشی میگیرد.
مطالعهٔ کامل روش
برای خواندن این بخش با حساب رایگان وارد شوید.
Method map
The neighbourhood of related methods — select a node to explore.
+27 more
منابع
نحوهٔ استناد به این صفحه
ScholarGate. (2026, June 1). Vision Transformer (ViT). ScholarGate. https://scholargate.app/fa/deep-learning/vision-transformer
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- مدل انتشار (Diffusion Model)یادگیری عمیق↔ compare
- شبکه مولد تخاصمییادگیری عمیق↔ compare
- جنگل تصادفییادگیری ماشین↔ compare
- ماشین بردار پشتیبان (طبقهبندی)یادگیری ماشین↔ compare
- Variational Autoencoderیادگیری عمیق↔ compare
ارجاعشده در
در این صفحه مشکلی دیدید؟ گزارش دهید یا اصلاحی پیشنهاد کنید →