طبقهبندی چندوجهی مبتنی بر BERT
طبقهبندی چندوجهی مبتنی بر BERT، معماری ترنسفورمر BERT را گسترش میدهد تا دادهها را از چندین وجه (معمولاً متن همراه با تصاویر) به صورت مشترک کدگذاری و طبقهبندی کند. این کار با ادغام نمایشهای آنها قبل از یک سر طبقهبندی نهایی انجام میشود. این رویکرد که حدود سال ۲۰۱۹ با مدلهایی مانند MMBT و ViLBERT به طور برجسته معرفی شد، به یک روش استاندارد برای وظایفی تبدیل شده است که در آنها نه متن و نه تصویر به تنهایی اطلاعات کافی برای برچسبگذاری دقیق را ندارند.
مطالعهٔ کامل روش
برای خواندن این بخش با حساب رایگان وارد شوید.
Method map
The neighbourhood of related methods — select a node to explore.
+8 more
منابع
- Kiela, D., Bhooshan, S., Firooz, H., Perez, E., & Testuggine, D. (2019). Supervised multimodal bitransformers for classifying images and text. arXiv preprint arXiv:1909.02950. link ↗
- Lu, J., Batra, D., Parikh, D., & Lee, S. (2019). ViLBERT: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. Advances in Neural Information Processing Systems, 32. link ↗
نحوهٔ استناد به این صفحه
ScholarGate. (2026, June 3). Multimodal BERT-based Classification (Transformer Fusion of Text and Non-text Modalities). ScholarGate. https://scholargate.app/fa/deep-learning/multimodal-bert-based-classification
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- CLIPیادگیری عمیق↔ compare
- ترنسفورمر بینایییادگیری عمیق↔ compare
ارجاعشده در
در این صفحه مشکلی دیدید؟ گزارش دهید یا اصلاحی پیشنهاد کنید →