Machine learningDeep learning / NLP / CV

Multimodale semantische Segmentierung

Multimodale semantische Segmentierung weist jedem Pixel einer Szene eine semantische Klassenbezeichnung zu, indem Informationen aus zwei oder mehr Sensormodalitäten fusioniert werden – am häufigsten RGB-Bilder, gepaart mit Tiefenkarten (RGB-D), LiDAR-Punktwolken, Wärmebildkameras oder Textbeschreibungen. Tiefe Encoder-Decoder-Netzwerke lernen, komplementäre Hinweise aus jeder Modalität abzugleichen und zu fusionieren, was zu einer dichteren und genaueren Segmentierung führt als bei jedem einzelmodalen Ansatz.

In MethodMind öffnenDemnächstVideoDemnächstDownload slides

Die vollständige Methode lesen

Nur für Mitglieder

Melden Sie sich mit einem kostenlosen Konto an, um diesen Abschnitt zu lesen.

Anmelden

Method map

The neighbourhood of related methods — select a node to explore.

Multimodale semantische Segmentierung

Instanzsegmentierung Semantische Segmentierung Vision Transformer Multimodale Objekterkenn…

Quellen

Hazirbas, C., Ma, L., Domokos, C., & Cremers, D. (2016). FuseNet: Incorporating Depth into Semantic Segmentation via Fusion-based CNN Architecture. In Proceedings of the Asian Conference on Computer Vision (ACCV). Springer. link ↗
Zhang, J., Liu, H., Yang, K., Hu, X., Liu, R., & Stiefelhagen, R. (2023). CMX: Cross-Modal Fusion for RGB-X Semantic Segmentation with Transformers. IEEE Transactions on Intelligent Transportation Systems, 24(12), 14801–14813. DOI: 10.1109/TITS.2023.3300537 ↗

So zitieren Sie diese Seite

ScholarGate. (2026, June 3). Multimodal Semantic Segmentation (Multi-Sensor Pixel-Level Scene Understanding). ScholarGate. https://scholargate.app/de/deep-learning/multimodal-semantic-segmentation

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

InstanzsegmentierungDeep Learning↔ compare
Semantische SegmentierungDeep Learning↔ compare
Vision TransformerDeep Learning↔ compare

Compare side by side →

Referenziert von

Multimodale Objekterkennung

Einen Fehler auf dieser Seite entdeckt? Melden oder Korrektur vorschlagen →