التصنيف المعتمد على نموذج BERT متعدد الوسائط
يمتد التصنيف المعتمد على نموذج BERT متعدد الوسائط (Multimodal BERT-based classification) ليقوم بترميز وتصنيف البيانات من وسائط متعددة بشكل مشترك — وأكثرها شيوعًا النص المقترن بالصور — عن طريق دمج تمثيلاتها قبل رأس تصنيف نهائي. ظهر هذا النهج بشكل بارز حوالي عام 2019 من خلال نماذج مثل MMBT و ViLBERT، وأصبح نهجًا قياسيًا للمهام التي لا يحمل فيها النص أو الصورة وحده معلومات كافية للتصنيف الدقيق.
اقرأ الطريقة كاملة
سجّل الدخول بحساب مجاني لقراءة هذا القسم.
Method map
The neighbourhood of related methods — select a node to explore.
+8 more
المصادر
- Kiela, D., Bhooshan, S., Firooz, H., Perez, E., & Testuggine, D. (2019). Supervised multimodal bitransformers for classifying images and text. arXiv preprint arXiv:1909.02950. link ↗
- Lu, J., Batra, D., Parikh, D., & Lee, S. (2019). ViLBERT: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. Advances in Neural Information Processing Systems, 32. link ↗
كيف تستشهد بهذه الصفحة
ScholarGate. (2026, June 3). Multimodal BERT-based Classification (Transformer Fusion of Text and Non-text Modalities). ScholarGate. https://scholargate.app/ar/deep-learning/multimodal-bert-based-classification
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- CLIPالتعلم العميق↔ compare
- محوّل الرؤيةالتعلم العميق↔ compare