Machine learning

محوّل الرؤية

يقوم محوّل الرؤية (ViT)، الذي قدمه دوسوفيتسكي وزملاؤه في عام 2021، بتقسيم الصورة إلى رقع ذات حجم ثابت، ويعامل هذه الرقع كسلسلة، ويطبق آلية الانتباه الذاتي للمحوّل على تصنيف الصور. بالنظر إلى بيانات تدريب كافية، فإنه يتفوق على الشبكات العصبية الالتفافية (CNNs).

افتح في MethodMindقريبًافيديوقريبًاDownload slides

اقرأ الطريقة كاملة

للأعضاء فقط

سجّل الدخول بحساب مجاني لقراءة هذا القسم.

تسجيل الدخول

Method map

The neighbourhood of related methods — select a node to explore.

+27 more

المصادر

  1. Dosovitskiy, A. et al. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR. link
  2. Touvron, H. et al. (2021). Training Data-Efficient Image Transformers. ICML. link

كيف تستشهد بهذه الصفحة

ScholarGate. (2026, June 1). Vision Transformer (ViT). ScholarGate. https://scholargate.app/ar/deep-learning/vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

يُستشهد بها في

ضبط نموذج بيرت الدقيقCLIPالمحول التكيفي للنطاقمحوّل الرؤية المتكيف مع المجالالمحول البصري القابل للتفسير (Explainable Vision Transformer)محوّل الرؤية المُحسَّن بدقةضبط نماذج GPT الدقيقتصنيف الصورشبكات كولموجوروف-أرنولد (KAN)LoRA و PEFTمامبا (نموذج فضاء الحالة)المشفرات التلقائية المقنعةمحوّل الرؤية متعدد اللغاتالتصنيف المعتمد على نموذج BERT متعدد الوسائطمعالجة اللغات الطبيعية متعددة الوسائطالتجزئة الدلالية متعددة الوسائطالمحولات متعددة الوسائط (Multimodal Transformers)المُحوِّل البصري متعدد الوسائط (Multimodal ViT)نموذج تجزئة أي شيءشبكات الخصومة التوليدية ذاتية الإشرافتصنيف الصور ذاتي الإشرافالتجزئة الذاتية للإستنساخالتجزئة الدلالية ذاتية الإشرافمحول الرؤية ذاتي الإشرافالمحوّل البصري شبه المُشرف عليهSimCLRالشبكات الالتفافية الرسومية المكانية-الزمانيةمحول سوين (Swin Transformer)TimeGPTرؤية مانجاماالكشف عن الكائنات بإشراف ضعيفمحوّل الرؤية المُشرف عليه ضعيفًا
ScholarGateVision Transformer (Vision Transformer (ViT)). استُرجع بتاريخ 2026-06-15 من https://scholargate.app/ar/deep-learning/vision-transformer · مجموعة البيانات: https://doi.org/10.5281/zenodo.20539026