Machine learningDeep learning / NLP / CV

Multimodal LSTM

Multimodal LSTM erweitert das Standard-Long-Short-Term-Memory-Netzwerk, um sequentielle Daten aus mehreren Eingabemodalitäten – wie Text, Audio und Video – innerhalb einer vereinheitlichten rekurrenten Architektur gemeinsam zu verarbeiten. Durch die Fusion von Repräsentationen aus verschiedenen Quellen vor oder innerhalb der LSTM-Zellen erfasst es zeitliche Abhängigkeiten, die Modalitäten überspannen und kreuzen, was es zu einem grundlegenden Ansatz für Aufgaben wie Sentimentanalyse, Videobeschriftung und affektives Computing macht.

In MethodMind öffnenDemnächstVideoDemnächstDownload slides

Die vollständige Methode lesen

Nur für Mitglieder

Melden Sie sich mit einem kostenlosen Konto an, um diesen Abschnitt zu lesen.

Anmelden

Method map

The neighbourhood of related methods — select a node to explore.

Multimodal LSTM

Attention Mechanism Gated Recurrent Unit (GR…LSTM Multimodaler Transformer Multimodales GRU

Quellen

Rajagopalan, S., Tran, L., Rozgic, V., Narayanan, S., Kumar, A., & Ramakrishna, S. (2016). Extending Long Short-Term Memory for Multi-View Structured Learning. In Proceedings of ECCV 2016. Springer. link ↗
Hochreiter, S., & Schmidhuber, J. (1997). Long Short-Term Memory. Neural Computation, 9(8), 1735–1780. DOI: 10.1162/neco.1997.9.8.1735 ↗

So zitieren Sie diese Seite

ScholarGate. (2026, June 3). Multimodal Long Short-Term Memory Network. ScholarGate. https://scholargate.app/de/deep-learning/multimodal-lstm

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Attention MechanismDeep Learning↔ compare
Gated Recurrent Unit (GRU)Deep Learning↔ compare
LSTMDeep Learning↔ compare
Multimodaler TransformerDeep Learning↔ compare

Compare side by side →

Referenziert von

Multimodales GRU

Einen Fehler auf dieser Seite entdeckt? Melden oder Korrektur vorschlagen →