ScholarGate
Assistent
Machine learningDeep learning / NLP / CV

Multimodaal Diffusiemodel

Een multimodaal diffusiemodel breidt denoising diffusion probabilistic models uit om inhoud te genereren of te begrijpen door te conditioneren op signalen uit meerdere modaliteiten — zoals tekst, beeld, audio of video — tegelijkertijd. Het leert een ruisproces om te keren, geleid door cross-modale context, wat synthese en vertaling van hoge kwaliteit tussen modaliteiten mogelijk maakt.

Openen in MethodMindBinnenkortVideoBinnenkortDownload slides

Lees de volledige methode

Alleen voor leden

Log in met een gratis account om dit onderdeel te lezen.

Inloggen

Method map

The neighbourhood of related methods — select a node to explore.

Bronnen

  1. Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 10684–10695. DOI: 10.1109/CVPR52688.2022.01042
  2. Ho, J., Jain, A., & Abbeel, P. (2020). Denoising Diffusion Probabilistic Models. Advances in Neural Information Processing Systems (NeurIPS), 33, 6840–6851. link

Deze pagina citeren

ScholarGate. (2026, June 3). Multimodal Diffusion Model (Cross-Modal Conditional Denoising Diffusion). ScholarGate. https://scholargate.app/nl/deep-learning/multimodal-diffusion-model

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Geciteerd door

ScholarGateMultimodal Diffusion Model (Multimodal Diffusion Model (Cross-Modal Conditional Denoising Diffusion)). Geraadpleegd op 2026-06-15 via https://scholargate.app/nl/deep-learning/multimodal-diffusion-model · Gegevensset: https://doi.org/10.5281/zenodo.20539026