Machine learningDeep learning / NLP / CV

التصنيف المعتمد على نموذج BERT متعدد الوسائط

يمتد التصنيف المعتمد على نموذج BERT متعدد الوسائط (Multimodal BERT-based classification) ليقوم بترميز وتصنيف البيانات من وسائط متعددة بشكل مشترك — وأكثرها شيوعًا النص المقترن بالصور — عن طريق دمج تمثيلاتها قبل رأس تصنيف نهائي. ظهر هذا النهج بشكل بارز حوالي عام 2019 من خلال نماذج مثل MMBT و ViLBERT، وأصبح نهجًا قياسيًا للمهام التي لا يحمل فيها النص أو الصورة وحده معلومات كافية للتصنيف الدقيق.

افتح في MethodMindقريبًافيديوقريبًاDownload slides

اقرأ الطريقة كاملة

للأعضاء فقط

سجّل الدخول بحساب مجاني لقراءة هذا القسم.

تسجيل الدخول

Method map

The neighbourhood of related methods — select a node to explore.

+8 more

المصادر

  1. Kiela, D., Bhooshan, S., Firooz, H., Perez, E., & Testuggine, D. (2019). Supervised multimodal bitransformers for classifying images and text. arXiv preprint arXiv:1909.02950. link
  2. Lu, J., Batra, D., Parikh, D., & Lee, S. (2019). ViLBERT: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. Advances in Neural Information Processing Systems, 32. link

كيف تستشهد بهذه الصفحة

ScholarGate. (2026, June 3). Multimodal BERT-based Classification (Transformer Fusion of Text and Non-text Modalities). ScholarGate. https://scholargate.app/ar/deep-learning/multimodal-bert-based-classification

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

يُستشهد بها في

ScholarGateMultimodal BERT-based Classification (Multimodal BERT-based Classification (Transformer Fusion of Text and Non-text Modalities)). استُرجع بتاريخ 2026-06-15 من https://scholargate.app/ar/deep-learning/multimodal-bert-based-classification · مجموعة البيانات: https://doi.org/10.5281/zenodo.20539026