Modèle de diffusion multimodal
Un modèle de diffusion multimodal étend les modèles probabilistes de diffusion par débruitage pour générer ou comprendre du contenu en conditionnant simultanément sur des signaux provenant de plusieurs modalités — telles que le texte, l'image, l'audio ou la vidéo. Il apprend à inverser un processus de bruitage guidé par un contexte intermodal, permettant une synthèse et une traduction intermodales de haute fidélité.
Lire la méthode complète
Connectez-vous avec un compte gratuit pour lire cette section.
Method map
The neighbourhood of related methods — select a node to explore.
Sources
- Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 10684–10695. DOI: 10.1109/CVPR52688.2022.01042 ↗
- Ho, J., Jain, A., & Abbeel, P. (2020). Denoising Diffusion Probabilistic Models. Advances in Neural Information Processing Systems (NeurIPS), 33, 6840–6851. link ↗
Comment citer cette page
ScholarGate. (2026, June 3). Multimodal Diffusion Model (Cross-Modal Conditional Denoising Diffusion). ScholarGate. https://scholargate.app/fr/deep-learning/multimodal-diffusion-model
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Modèle de diffusion affinéApprentissage profond↔ compare
- Classification multimodale basée sur BERTApprentissage profond↔ compare
- GAN multimodaleApprentissage profond↔ compare
- Transformeur MultimodalApprentissage profond↔ compare
- Autoencodeur variationnel multimodalApprentissage profond↔ compare
- Multimodal Vision TransformerApprentissage profond↔ compare
Référencée par
Une erreur sur cette page ? Signalez-la ou proposez une correction →