Machine learning

ترنسفورمر بینایی

ترنسفورمر بینایی (ViT) که توسط دوسوویتسکی و همکارانش در سال ۲۰۲۱ معرفی شد، تصویر را به وصله‌هایی با اندازه ثابت تقسیم می‌کند، آن وصله‌ها را به عنوان یک دنباله در نظر می‌گیرد و از مکانیزم توجه به خود ترنسفورمر برای طبقه‌بندی تصویر استفاده می‌کند. با داده‌های آموزشی کافی، از شبکه‌های عصبی کانولوشنی (CNN) پیشی می‌گیرد.

باز کردن در MethodMindبه‌زودیویدیوبه‌زودیDownload slides

مطالعهٔ کامل روش

ویژهٔ اعضا

برای خواندن این بخش با حساب رایگان وارد شوید.

ورود

Method map

The neighbourhood of related methods — select a node to explore.

+27 more

منابع

  1. Dosovitskiy, A. et al. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR. link
  2. Touvron, H. et al. (2021). Training Data-Efficient Image Transformers. ICML. link

نحوهٔ استناد به این صفحه

ScholarGate. (2026, June 1). Vision Transformer (ViT). ScholarGate. https://scholargate.app/fa/deep-learning/vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

ارجاع‌شده در

ScholarGateVision Transformer (Vision Transformer (ViT)). بازیابی‌شده در 2026-06-15 از https://scholargate.app/fa/deep-learning/vision-transformer · مجموعه‌داده: https://doi.org/10.5281/zenodo.20539026