Multimodal Diffusionsmodel
En multimodal diffusionsmodel udvider denoising diffusion probabilistiske modeller til at generere eller forstå indhold ved at betinge på signaler fra flere modaliteter — såsom tekst, billede, lyd eller video — samtidigt. Den lærer at vende en støjproces styret af tværmodal kontekst, hvilket muliggør syntese og oversættelse af høj kvalitet på tværs af modaliteter.
Læs hele metoden
Log ind med en gratis konto for at læse dette afsnit.
Method map
The neighbourhood of related methods — select a node to explore.
Kilder
- Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 10684–10695. DOI: 10.1109/CVPR52688.2022.01042 ↗
- Ho, J., Jain, A., & Abbeel, P. (2020). Denoising Diffusion Probabilistic Models. Advances in Neural Information Processing Systems (NeurIPS), 33, 6840–6851. link ↗
Sådan citerer du denne side
ScholarGate. (2026, June 3). Multimodal Diffusion Model (Cross-Modal Conditional Denoising Diffusion). ScholarGate. https://scholargate.app/da/deep-learning/multimodal-diffusion-model
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Finjusteret diffusionsmodelDyb læring↔ compare
- Multimodal BERT-baseret klassifikationDyb læring↔ compare
- Multimodal GANDyb læring↔ compare
- Multimodal TransformerDyb læring↔ compare
- Multimodal Variational AutoencoderDyb læring↔ compare
- Multimodal Vision TransformerDyb læring↔ compare
Refereret af
Har du fundet en fejl på denne side? Indberet den eller foreslå en rettelse →