Machine learningDeep learning / NLP / CV

المُحوِّل البصري متعدد الوسائط (Multimodal ViT)

يمتد المُحوِّل البصري متعدد الوسائط (Multimodal ViT) على بنية المُحوِّل البصري (Vision Transformer) لمعالجة ومواءمة التمثيلات من وسائط متعددة - عادةً الصور والنصوص - بشكل مشترك باستخدام آليات الانتباه الذاتي والانتباه المتقاطع. من خلال تعلم مساحات تضمين مشتركة أو متوائمة عبر الوسائط، فإنه يمكّن مهام مثل الإجابة على الأسئلة المرئية، واسترجاع الصور والنصوص، والتأريض المرئي، ووصف الصور.

افتح في MethodMindقريبًافيديوقريبًاDownload slides

اقرأ الطريقة كاملة

للأعضاء فقط

سجّل الدخول بحساب مجاني لقراءة هذا القسم.

تسجيل الدخول

Method map

The neighbourhood of related methods — select a node to explore.

+1 more

المصادر

  1. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In International Conference on Learning Representations (ICLR). link
  2. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139. link

كيف تستشهد بهذه الصفحة

ScholarGate. (2026, June 3). Multimodal Vision Transformer (Multimodal ViT). ScholarGate. https://scholargate.app/ar/deep-learning/multimodal-vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

يُستشهد بها في

ScholarGateMultimodal Vision Transformer (Multimodal Vision Transformer (Multimodal ViT)). استُرجع بتاريخ 2026-06-15 من https://scholargate.app/ar/deep-learning/multimodal-vision-transformer · مجموعة البيانات: https://doi.org/10.5281/zenodo.20539026