Multimodal LSTM
Multimodal LSTM erweitert das Standard-Long-Short-Term-Memory-Netzwerk, um sequentielle Daten aus mehreren Eingabemodalitäten – wie Text, Audio und Video – innerhalb einer vereinheitlichten rekurrenten Architektur gemeinsam zu verarbeiten. Durch die Fusion von Repräsentationen aus verschiedenen Quellen vor oder innerhalb der LSTM-Zellen erfasst es zeitliche Abhängigkeiten, die Modalitäten überspannen und kreuzen, was es zu einem grundlegenden Ansatz für Aufgaben wie Sentimentanalyse, Videobeschriftung und affektives Computing macht.
Die vollständige Methode lesen
Melden Sie sich mit einem kostenlosen Konto an, um diesen Abschnitt zu lesen.
Method map
The neighbourhood of related methods — select a node to explore.
Quellen
- Rajagopalan, S., Tran, L., Rozgic, V., Narayanan, S., Kumar, A., & Ramakrishna, S. (2016). Extending Long Short-Term Memory for Multi-View Structured Learning. In Proceedings of ECCV 2016. Springer. link ↗
- Hochreiter, S., & Schmidhuber, J. (1997). Long Short-Term Memory. Neural Computation, 9(8), 1735–1780. DOI: 10.1162/neco.1997.9.8.1735 ↗
So zitieren Sie diese Seite
ScholarGate. (2026, June 3). Multimodal Long Short-Term Memory Network. ScholarGate. https://scholargate.app/de/deep-learning/multimodal-lstm
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Attention MechanismDeep Learning↔ compare
- Gated Recurrent Unit (GRU)Deep Learning↔ compare
- LSTMDeep Learning↔ compare
- Multimodaler TransformerDeep Learning↔ compare
Referenziert von
Einen Fehler auf dieser Seite entdeckt? Melden oder Korrektur vorschlagen →