Machine learningDeep learning / NLP / CV

طبقه‌بندی چندوجهی مبتنی بر BERT

طبقه‌بندی چندوجهی مبتنی بر BERT، معماری ترنسفورمر BERT را گسترش می‌دهد تا داده‌ها را از چندین وجه (معمولاً متن همراه با تصاویر) به صورت مشترک کدگذاری و طبقه‌بندی کند. این کار با ادغام نمایش‌های آن‌ها قبل از یک سر طبقه‌بندی نهایی انجام می‌شود. این رویکرد که حدود سال ۲۰۱۹ با مدل‌هایی مانند MMBT و ViLBERT به طور برجسته معرفی شد، به یک روش استاندارد برای وظایفی تبدیل شده است که در آن‌ها نه متن و نه تصویر به تنهایی اطلاعات کافی برای برچسب‌گذاری دقیق را ندارند.

باز کردن در MethodMindبه‌زودیویدیوبه‌زودیDownload slides

مطالعهٔ کامل روش

ویژهٔ اعضا

برای خواندن این بخش با حساب رایگان وارد شوید.

ورود

Method map

The neighbourhood of related methods — select a node to explore.

+8 more

منابع

  1. Kiela, D., Bhooshan, S., Firooz, H., Perez, E., & Testuggine, D. (2019). Supervised multimodal bitransformers for classifying images and text. arXiv preprint arXiv:1909.02950. link
  2. Lu, J., Batra, D., Parikh, D., & Lee, S. (2019). ViLBERT: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. Advances in Neural Information Processing Systems, 32. link

نحوهٔ استناد به این صفحه

ScholarGate. (2026, June 3). Multimodal BERT-based Classification (Transformer Fusion of Text and Non-text Modalities). ScholarGate. https://scholargate.app/fa/deep-learning/multimodal-bert-based-classification

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

ارجاع‌شده در

ScholarGateMultimodal BERT-based Classification (Multimodal BERT-based Classification (Transformer Fusion of Text and Non-text Modalities)). بازیابی‌شده در 2026-06-15 از https://scholargate.app/fa/deep-learning/multimodal-bert-based-classification · مجموعه‌داده: https://doi.org/10.5281/zenodo.20539026