Machine learningDeep learning / NLP / CV

ترانسفورمر چندوجهی

یک ترانسفورمر چندوجهی (Multimodal Transformer) معماری استاندارد ترانسفورمر را برای پردازش و استدلال مشترک بر روی دو یا چند وجه ورودی — که معمولاً متن و تصویر هستند، اما می‌توانند شامل صوت، ویدئو یا داده‌های ساختاریافته نیز باشند — گسترش می‌دهد. لایه‌های توجه متقابل وجهی (Cross-modal attention layers) امکان می‌دهند تا اطلاعات یک وجه، بازنمایی‌های وجه دیگر را تحت تأثیر قرار دهد و وظایفی مانند پاسخ‌گویی بصری به پرسش، تولید شرح تصویر و تحلیل احساسات چندوجهی را ممکن می‌سازد.

باز کردن در MethodMindبه‌زودیویدیوبه‌زودیDownload slides

مطالعهٔ کامل روش

ویژهٔ اعضا

برای خواندن این بخش با حساب رایگان وارد شوید.

ورود

Method map

The neighbourhood of related methods — select a node to explore.

ترانسفورمر چندوجهی

طبقه‌بندی مبتنی بر بِرْت طبقه‌بندی تصویر طبقه‌بندی چندوجهی مبتنی…تعبیه‌های جمله ترنسفورمر بینایی ترنسفورمر قابل توضیح (Ex…شبکه عصبی پیچشی چندوجهی مدل انتشار چندوجهی (Mult…داک تو وِک چندوجهی Multimodal GAN

+15 more

منابع

Lu, J., Batra, D., Parikh, D., & Lee, S. (2019). ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks. Advances in Neural Information Processing Systems (NeurIPS), 32. link ↗
Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139. link ↗

نحوهٔ استناد به این صفحه

ScholarGate. (2026, June 3). Multimodal Transformer (Cross-Modal Attention-Based Architecture). ScholarGate. https://scholargate.app/fa/deep-learning/multimodal-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

طبقه‌بندی مبتنی بر بِرْتیادگیری عمیق↔ compare
طبقه‌بندی تصویریادگیری عمیق↔ compare
طبقه‌بندی چندوجهی مبتنی بر BERTیادگیری عمیق↔ compare
تعبیه‌های جملهیادگیری عمیق↔ compare
ترنسفورمر بینایییادگیری عمیق↔ compare

Compare side by side →

ارجاع‌شده در

ترنسفورمر قابل توضیح (Explainable Transformer)شبکه عصبی پیچشی چندوجهی مدل انتشار چندوجهی (Multimodal Diffusion Model)داک تو وِک چندوجهی Multimodal GAN شبکه عصبی گراف چندوجهی گیتد بازگشتی چندوجهی طبقه‌بندی تصاویر چندوجهی مدل موضوعی LDA چندوجهی شبکه حافظه طولانی کوتاه چندوجهی (Multimodal LSTM)پرسپترون چندلایه‌ی چندوجهی شناسایی موجودیت نام‌گذاری شده چندوجهی آشکارسازی اشیاء چندوجهی پاسخگویی به پرسش‌های چندوجهی شبکه عصبی بازگشتی چندوجهی یادگیری تقویتی چندوجهی (Multimodal Reinforcement Learning)طبقه‌بندی چندوجهی مبتنی بر RoBERTa خلاصه‌سازی متن چندوجهی مدل‌سازی موضوعی چندوجهی Word2Vec چندوجهی

در این صفحه مشکلی دیدید؟ گزارش دهید یا اصلاحی پیشنهاد کنید →