Machine learningDeep learning / NLP / CV

المُحوِّل البصري متعدد الوسائط (Multimodal ViT)

يمتد المُحوِّل البصري متعدد الوسائط (Multimodal ViT) على بنية المُحوِّل البصري (Vision Transformer) لمعالجة ومواءمة التمثيلات من وسائط متعددة - عادةً الصور والنصوص - بشكل مشترك باستخدام آليات الانتباه الذاتي والانتباه المتقاطع. من خلال تعلم مساحات تضمين مشتركة أو متوائمة عبر الوسائط، فإنه يمكّن مهام مثل الإجابة على الأسئلة المرئية، واسترجاع الصور والنصوص، والتأريض المرئي، ووصف الصور.

افتح في MethodMindقريبًافيديوقريبًاDownload slides

اقرأ الطريقة كاملة

للأعضاء فقط

سجّل الدخول بحساب مجاني لقراءة هذا القسم.

تسجيل الدخول

Method map

The neighbourhood of related methods — select a node to explore.

المُحوِّل البصري متعدد الوسائط (Multimodal ViT)

تصنيف قائم على BERT محوّل الرؤية المُحسَّن ب…تصنيف الصور التصنيف المعتمد على نموذ…محوّل الرؤية المحول البصري القابل للت…محوّل الرؤية متعدد اللغات نموذج الانتشار متعدد الو…تجزئة الكائنات متعددة ال…التعلم المعزز متعدد الوس…

+1 more

المصادر

Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In International Conference on Learning Representations (ICLR). link ↗
Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139. link ↗

كيف تستشهد بهذه الصفحة

ScholarGate. (2026, June 3). Multimodal Vision Transformer (Multimodal ViT). ScholarGate. https://scholargate.app/ar/deep-learning/multimodal-vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

تصنيف قائم على BERTالتعلم العميق↔ compare
محوّل الرؤية المُحسَّن بدقةالتعلم العميق↔ compare
تصنيف الصورالتعلم العميق↔ compare
التصنيف المعتمد على نموذج BERT متعدد الوسائطالتعلم العميق↔ compare
محوّل الرؤيةالتعلم العميق↔ compare

Compare side by side →

يُستشهد بها في

المحول البصري القابل للتفسير (Explainable Vision Transformer)محوّل الرؤية متعدد اللغات نموذج الانتشار متعدد الوسائط تجزئة الكائنات متعددة الوسائط التعلم المعزز متعدد الوسائط محول الرؤية ذاتي الإشراف

هل لاحظت مشكلة في هذه الصفحة؟ أبلغ عنها أو اقترح تصحيحًا →

اقرأ الطريقة كاملة

Method map

المصادر

كيف تستشهد بهذه الصفحة

طرق ذات صلة

Which method?

يُستشهد بها في