Multimodal LSTM
Multimodal LSTM utökar det standardmässiga Long Short-Term Memory-nätverket för att gemensamt bearbeta sekventiell data från flera inkommande modaliteter – såsom text, ljud och video – inom en enhetlig rekurrent arkitektur. Genom att smälta samman representationer från olika källor före eller inom LSTM-cellerna, fångar det temporala beroenden som spänner över och korsar modaliteter, vilket gör det till en grundläggande metod för uppgifter som sentimentanalys, videobeskrivning och affektiv databehandling.
Läs hela metoden
Logga in med ett kostnadsfritt konto för att läsa avsnittet.
Method map
The neighbourhood of related methods — select a node to explore.
Källor
- Rajagopalan, S., Tran, L., Rozgic, V., Narayanan, S., Kumar, A., & Ramakrishna, S. (2016). Extending Long Short-Term Memory for Multi-View Structured Learning. In Proceedings of ECCV 2016. Springer. link ↗
- Hochreiter, S., & Schmidhuber, J. (1997). Long Short-Term Memory. Neural Computation, 9(8), 1735–1780. DOI: 10.1162/neco.1997.9.8.1735 ↗
Så citerar du den här sidan
ScholarGate. (2026, June 3). Multimodal Long Short-Term Memory Network. ScholarGate. https://scholargate.app/sv/deep-learning/multimodal-lstm
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- UppmärksamhetsmekanismDjupinlärning↔ compare
- Gated Recurrent Unit (GRU)Djupinlärning↔ compare
- LSTMDjupinlärning↔ compare
- Multimodal TransformerDjupinlärning↔ compare
Refereras av
Hittade du ett fel på sidan? Rapportera eller föreslå en rättelse →