Wielomodalna sieć neuronowa konwolucyjna
Wielomodalna sieć neuronowa konwolucyjna (MM-CNN) przetwarza i łączy dwie lub więcej modalności wejściowych — takich jak obrazy i tekst, lub wideo i dźwięk — za pomocą dedykowanych gałęzi konwolucyjnych, ucząc się wspólnej reprezentacji, która wychwytuje komplementarne sygnały z każdego źródła. Połączona reprezentacja napędza zadanie niższego poziomu, takie jak klasyfikacja, regresja lub wyszukiwanie.
Przeczytaj pełny opis metody
Zaloguj się na bezpłatne konto, aby przeczytać tę sekcję.
Method map
The neighbourhood of related methods — select a node to explore.
Źródła
- Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., & Ng, A. Y. (2011). Multimodal deep learning. In Proceedings of the 28th International Conference on Machine Learning (ICML), 689–696. link ↗
- Zhang, Y., Yin, C., Li, Y., Li, D., & Tian, Q. (2020). Multimodal intelligence: Representation learning, information fusion, and applications. IEEE Journal of Selected Topics in Signal Processing, 14(3), 478–493. DOI: 10.1109/JSTSP.2020.2987728 ↗
Jak cytować tę stronę
ScholarGate. (2026, June 3). Multimodal Convolutional Neural Network (MM-CNN). ScholarGate. https://scholargate.app/pl/deep-learning/multimodal-convolutional-neural-network
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Klasyfikacja obrazówUczenie głębokie↔ compare
- Klasyfikacja multimodalna oparta na BERTUczenie głębokie↔ compare
- Wielomodalna rekurencyjna sieć neuronowaUczenie głębokie↔ compare
- Transformator multimodalnyUczenie głębokie↔ compare
- Uczenie transferowe z konwolucyjną siecią neuronowąUczenie głębokie↔ compare
Cytowana przez
Widzisz błąd na tej stronie? Zgłoś go lub zaproponuj poprawkę →