Machine learningDeep learning / NLP / CV

التصنيف المعتمد على نموذج BERT متعدد الوسائط

يمتد التصنيف المعتمد على نموذج BERT متعدد الوسائط (Multimodal BERT-based classification) ليقوم بترميز وتصنيف البيانات من وسائط متعددة بشكل مشترك — وأكثرها شيوعًا النص المقترن بالصور — عن طريق دمج تمثيلاتها قبل رأس تصنيف نهائي. ظهر هذا النهج بشكل بارز حوالي عام 2019 من خلال نماذج مثل MMBT و ViLBERT، وأصبح نهجًا قياسيًا للمهام التي لا يحمل فيها النص أو الصورة وحده معلومات كافية للتصنيف الدقيق.

افتح في MethodMindقريبًافيديوقريبًاDownload slides

اقرأ الطريقة كاملة

للأعضاء فقط

سجّل الدخول بحساب مجاني لقراءة هذا القسم.

تسجيل الدخول

Method map

The neighbourhood of related methods — select a node to explore.

التصنيف المعتمد على نموذج BERT متعدد الوسائط

CLIP محوّل الرؤية الشبكة العصبية الالتفافي…نموذج الانتشار متعدد الو…Multimodal Doc2Vec شبكة الرسم البياني متعدد…وحدة البوابة المتكررة مت…تصنيف الصور متعدد الوسائط نموذج موضوعات LDA متعدد…التعرف على الكيانات المس…

+8 more

المصادر

Kiela, D., Bhooshan, S., Firooz, H., Perez, E., & Testuggine, D. (2019). Supervised multimodal bitransformers for classifying images and text. arXiv preprint arXiv:1909.02950. link ↗
Lu, J., Batra, D., Parikh, D., & Lee, S. (2019). ViLBERT: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. Advances in Neural Information Processing Systems, 32. link ↗

كيف تستشهد بهذه الصفحة

ScholarGate. (2026, June 3). Multimodal BERT-based Classification (Transformer Fusion of Text and Non-text Modalities). ScholarGate. https://scholargate.app/ar/deep-learning/multimodal-bert-based-classification

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

CLIPالتعلم العميق↔ compare
محوّل الرؤيةالتعلم العميق↔ compare

Compare side by side →

يُستشهد بها في

هل لاحظت مشكلة في هذه الصفحة؟ أبلغ عنها أو اقترح تصحيحًا →

اقرأ الطريقة كاملة

Method map

المصادر

كيف تستشهد بهذه الصفحة

طرق ذات صلة

Which method?

يُستشهد بها في