Machine learningDeep learning / NLP / CV
نموذج الانتشار متعدد الوسائط
يمتد نموذج الانتشار متعدد الوسائط نماذج الانتشار الاحتمالية لإزالة التشويش لتوليد أو فهم المحتوى عن طريق التكييف مع إشارات من وسائط متعددة - مثل النص والصورة والصوت أو الفيديو - في وقت واحد. يتعلم عكس عملية التشويش الموجهة بسياق متعدد الوسائط، مما يتيح التوليف عالي الدقة والترجمة عبر الوسائط.
اقرأ الطريقة كاملة
للأعضاء فقط
تسجيل الدخولسجّل الدخول بحساب مجاني لقراءة هذا القسم.
Method map
The neighbourhood of related methods — select a node to explore.
المصادر
- Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 10684–10695. DOI: 10.1109/CVPR52688.2022.01042 ↗
- Ho, J., Jain, A., & Abbeel, P. (2020). Denoising Diffusion Probabilistic Models. Advances in Neural Information Processing Systems (NeurIPS), 33, 6840–6851. link ↗
كيف تستشهد بهذه الصفحة
ScholarGate. (2026, June 3). Multimodal Diffusion Model (Cross-Modal Conditional Denoising Diffusion). ScholarGate. https://scholargate.app/ar/deep-learning/multimodal-diffusion-model
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- نموذج الانتشار المضبط بدقةالتعلم العميق↔ compare
- التصنيف المعتمد على نموذج BERT متعدد الوسائطالتعلم العميق↔ compare
- شبكة الخصومة التوليدية متعددة الوسائط (Multimodal GAN)التعلم العميق↔ compare
- المحولات متعددة الوسائط (Multimodal Transformers)التعلم العميق↔ compare
- المشفر التلقائي التبايني متعدد الوسائطالتعلم العميق↔ compare
- المُحوِّل البصري متعدد الوسائط (Multimodal ViT)التعلم العميق↔ compare