Multimodaal Diffusiemodel
Een multimodaal diffusiemodel breidt denoising diffusion probabilistic models uit om inhoud te genereren of te begrijpen door te conditioneren op signalen uit meerdere modaliteiten — zoals tekst, beeld, audio of video — tegelijkertijd. Het leert een ruisproces om te keren, geleid door cross-modale context, wat synthese en vertaling van hoge kwaliteit tussen modaliteiten mogelijk maakt.
Lees de volledige methode
Log in met een gratis account om dit onderdeel te lezen.
Method map
The neighbourhood of related methods — select a node to explore.
Bronnen
- Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 10684–10695. DOI: 10.1109/CVPR52688.2022.01042 ↗
- Ho, J., Jain, A., & Abbeel, P. (2020). Denoising Diffusion Probabilistic Models. Advances in Neural Information Processing Systems (NeurIPS), 33, 6840–6851. link ↗
Deze pagina citeren
ScholarGate. (2026, June 3). Multimodal Diffusion Model (Cross-Modal Conditional Denoising Diffusion). ScholarGate. https://scholargate.app/nl/deep-learning/multimodal-diffusion-model
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Fijngestemd diffusiemodelDeep learning↔ compare
- Multimodale BERT-gebaseerde classificatieDeep learning↔ compare
- Multimodale GANDeep learning↔ compare
- Multimodale TransformerDeep learning↔ compare
- Multimodale Variational Auto-encoderDeep learning↔ compare
- Multimodale Vision TransformerDeep learning↔ compare
Geciteerd door
Een fout op deze pagina gezien? Meld het of stel een correctie voor →