Multimodal LSTM
Multimodal LSTM udvider det standard Long Short-Term Memory-netværk til at behandle sekventielle data fra flere inputmodaliteter – såsom tekst, lyd og video – samlet inden for en forenet rekurrent arkitektur. Ved at fusionere repræsentationer fra forskellige kilder før eller inden i LSTM-cellerne fanger den tidsmæssige afhængigheder, der spænder over og krydser modaliteter, hvilket gør den til en fundamental tilgang for opgaver som sentimentanalyse, videobeskrivelse og affektiv databehandling.
Læs hele metoden
Log ind med en gratis konto for at læse dette afsnit.
Method map
The neighbourhood of related methods — select a node to explore.
Kilder
- Rajagopalan, S., Tran, L., Rozgic, V., Narayanan, S., Kumar, A., & Ramakrishna, S. (2016). Extending Long Short-Term Memory for Multi-View Structured Learning. In Proceedings of ECCV 2016. Springer. link ↗
- Hochreiter, S., & Schmidhuber, J. (1997). Long Short-Term Memory. Neural Computation, 9(8), 1735–1780. DOI: 10.1162/neco.1997.9.8.1735 ↗
Sådan citerer du denne side
ScholarGate. (2026, June 3). Multimodal Long Short-Term Memory Network. ScholarGate. https://scholargate.app/da/deep-learning/multimodal-lstm
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- OpmærksomhedsmekanismeDyb læring↔ compare
- Gated Recurrent Unit (GRU)Dyb læring↔ compare
- LSTMDyb læring↔ compare
- Multimodal TransformerDyb læring↔ compare
Refereret af
Har du fundet en fejl på denne side? Indberet den eller foreslå en rettelse →