Multimodal Convolutional Neural Network
Ett Multimodalt Konvolutionellt Neuralt Nätverk (MM-CNN) bearbetar och sammanfogar två eller flera indatamodaliteter – såsom bilder och text, eller video och ljud – genom dedikerade konvolutionella grenar, och lär sig en delad representation som fångar kompletterande signaler från varje källa. Den sammanfogade representationen driver en nedströmsuppgift såsom klassificering, regression eller informationsåtervinning.
Läs hela metoden
Logga in med ett kostnadsfritt konto för att läsa avsnittet.
Method map
The neighbourhood of related methods — select a node to explore.
Källor
- Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., & Ng, A. Y. (2011). Multimodal deep learning. In Proceedings of the 28th International Conference on Machine Learning (ICML), 689–696. link ↗
- Zhang, Y., Yin, C., Li, Y., Li, D., & Tian, Q. (2020). Multimodal intelligence: Representation learning, information fusion, and applications. IEEE Journal of Selected Topics in Signal Processing, 14(3), 478–493. DOI: 10.1109/JSTSP.2020.2987728 ↗
Så citerar du den här sidan
ScholarGate. (2026, June 3). Multimodal Convolutional Neural Network (MM-CNN). ScholarGate. https://scholargate.app/sv/deep-learning/multimodal-convolutional-neural-network
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- BildklassificeringDjupinlärning↔ compare
- Multimodal BERT-baserad klassificeringDjupinlärning↔ compare
- Multimodal Recurrent Neural NetworkDjupinlärning↔ compare
- Multimodal TransformerDjupinlärning↔ compare
- Överföringsinlärning med faltningsneurala nätverkDjupinlärning↔ compare
Refereras av
Hittade du ett fel på sidan? Rapportera eller föreslå en rättelse →