Machine learningDeep learning / NLP / CV

ترنسفورمر بینایی خودنظارتی

ترنسفورمر بینایی خودنظارتی (SSL-ViT) اهداف پیش‌آموزش خودنظارتی - مانند پیش‌بینی پچ ماسک‌شده (MAE) یا خود-تقطیر بدون برچسب (DINO) - را بر معماری ترنسفورمر بینایی اعمال می‌کند و امکان یادگیری بازنمایی‌های بصری قدرتمند را از مجموعه‌های بزرگ تصاویر بدون برچسب، پیش از هرگونه تنظیم دقیق ویژه وظیفه، فراهم می‌سازد.

باز کردن در MethodMindبه‌زودیویدیوبه‌زودیDownload slides

مطالعهٔ کامل روش

ویژهٔ اعضا

برای خواندن این بخش با حساب رایگان وارد شوید.

ورود

Method map

The neighbourhood of related methods — select a node to explore.

منابع

  1. Caron, M., Touvron, H., Misra, I., Jegou, H., Mairal, J., Bojanowski, P., & Joulin, A. (2021). Emerging Properties in Self-Supervised Vision Transformers. Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 9650–9660. link
  2. He, K., Chen, X., Xie, S., Li, Y., Dollar, P., & Girshick, R. (2022). Masked Autoencoders Are Scalable Vision Learners. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 16000–16009. link

نحوهٔ استناد به این صفحه

ScholarGate. (2026, June 3). Self-supervised Vision Transformer (SSL-ViT). ScholarGate. https://scholargate.app/fa/deep-learning/self-supervised-vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

ارجاع‌شده در

ScholarGateSelf-supervised Vision Transformer (Self-supervised Vision Transformer (SSL-ViT)). بازیابی‌شده در 2026-06-15 از https://scholargate.app/fa/deep-learning/self-supervised-vision-transformer · مجموعه‌داده: https://doi.org/10.5281/zenodo.20539026