Multimodal konvolusjonelt nevralt nettverk
Et Multimodalt Konvolusjonelt Nevralt Nettverk (MM-CNN) prosesserer og fusjonerer to eller flere input-modaliteter – som bilder og tekst, eller video og lyd – gjennom dedikerte konvolusjonsgrener, og lærer en delt representasjon som fanger komplementære signaler fra hver kilde. Den fusjonerte representasjonen driver en nedstrøms oppgave som klassifisering, regresjon eller gjenfinning.
Les hele metoden
Logg inn med en gratis konto for å lese denne delen.
Method map
The neighbourhood of related methods — select a node to explore.
Kilder
- Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., & Ng, A. Y. (2011). Multimodal deep learning. In Proceedings of the 28th International Conference on Machine Learning (ICML), 689–696. link ↗
- Zhang, Y., Yin, C., Li, Y., Li, D., & Tian, Q. (2020). Multimodal intelligence: Representation learning, information fusion, and applications. IEEE Journal of Selected Topics in Signal Processing, 14(3), 478–493. DOI: 10.1109/JSTSP.2020.2987728 ↗
Slik siterer du denne siden
ScholarGate. (2026, June 3). Multimodal Convolutional Neural Network (MM-CNN). ScholarGate. https://scholargate.app/no/deep-learning/multimodal-convolutional-neural-network
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- BildeklassifiseringDyp læring↔ compare
- Multimodal BERT-basert klassifiseringDyp læring↔ compare
- Multimodal Recurrent Neural NetworkDyp læring↔ compare
- Multimodal transformereDyp læring↔ compare
- Overføringslæring med konvolusjonelt nevralt nettverkDyp læring↔ compare
Referert av
Funnet en feil på denne siden? Rapporter eller foreslå en rettelse →