المُحوِّل البصري متعدد الوسائط (Multimodal ViT)
يمتد المُحوِّل البصري متعدد الوسائط (Multimodal ViT) على بنية المُحوِّل البصري (Vision Transformer) لمعالجة ومواءمة التمثيلات من وسائط متعددة - عادةً الصور والنصوص - بشكل مشترك باستخدام آليات الانتباه الذاتي والانتباه المتقاطع. من خلال تعلم مساحات تضمين مشتركة أو متوائمة عبر الوسائط، فإنه يمكّن مهام مثل الإجابة على الأسئلة المرئية، واسترجاع الصور والنصوص، والتأريض المرئي، ووصف الصور.
اقرأ الطريقة كاملة
سجّل الدخول بحساب مجاني لقراءة هذا القسم.
Method map
The neighbourhood of related methods — select a node to explore.
+1 more
المصادر
- Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In International Conference on Learning Representations (ICLR). link ↗
- Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139. link ↗
كيف تستشهد بهذه الصفحة
ScholarGate. (2026, June 3). Multimodal Vision Transformer (Multimodal ViT). ScholarGate. https://scholargate.app/ar/deep-learning/multimodal-vision-transformer
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- تصنيف قائم على BERTالتعلم العميق↔ compare
- محوّل الرؤية المُحسَّن بدقةالتعلم العميق↔ compare
- تصنيف الصورالتعلم العميق↔ compare
- التصنيف المعتمد على نموذج BERT متعدد الوسائطالتعلم العميق↔ compare
- محوّل الرؤيةالتعلم العميق↔ compare