Multimodal LSTM
Multimodal LSTM utvider standard Long Short-Term Memory-nettverk for å felles behandle sekvensielle data fra flere inndatamodaliteter — som tekst, lyd og video — innenfor en enhetlig rekurrent arkitektur. Ved å fusjonere representasjoner fra ulike kilder før eller innenfor LSTM-cellene, fanger den temporale avhengigheter som spenner over og krysser modaliteter, noe som gjør den til en grunnleggende tilnærming for oppgaver som sentimentanalyse, videobeskrivelse og affektiv databehandling.
Les hele metoden
Logg inn med en gratis konto for å lese denne delen.
Method map
The neighbourhood of related methods — select a node to explore.
Kilder
- Rajagopalan, S., Tran, L., Rozgic, V., Narayanan, S., Kumar, A., & Ramakrishna, S. (2016). Extending Long Short-Term Memory for Multi-View Structured Learning. In Proceedings of ECCV 2016. Springer. link ↗
- Hochreiter, S., & Schmidhuber, J. (1997). Long Short-Term Memory. Neural Computation, 9(8), 1735–1780. DOI: 10.1162/neco.1997.9.8.1735 ↗
Slik siterer du denne siden
ScholarGate. (2026, June 3). Multimodal Long Short-Term Memory Network. ScholarGate. https://scholargate.app/no/deep-learning/multimodal-lstm
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- OppmerksomhetsmekanismeDyp læring↔ compare
- Gated Recurrent Unit (GRU)Dyp læring↔ compare
- LSTMDyp læring↔ compare
- Multimodal transformereDyp læring↔ compare
Referert av
Funnet en feil på denne siden? Rapporter eller foreslå en rettelse →