Multimodale semantische Segmentierung
Multimodale semantische Segmentierung weist jedem Pixel einer Szene eine semantische Klassenbezeichnung zu, indem Informationen aus zwei oder mehr Sensormodalitäten fusioniert werden – am häufigsten RGB-Bilder, gepaart mit Tiefenkarten (RGB-D), LiDAR-Punktwolken, Wärmebildkameras oder Textbeschreibungen. Tiefe Encoder-Decoder-Netzwerke lernen, komplementäre Hinweise aus jeder Modalität abzugleichen und zu fusionieren, was zu einer dichteren und genaueren Segmentierung führt als bei jedem einzelmodalen Ansatz.
Die vollständige Methode lesen
Melden Sie sich mit einem kostenlosen Konto an, um diesen Abschnitt zu lesen.
Method map
The neighbourhood of related methods — select a node to explore.
Quellen
- Hazirbas, C., Ma, L., Domokos, C., & Cremers, D. (2016). FuseNet: Incorporating Depth into Semantic Segmentation via Fusion-based CNN Architecture. In Proceedings of the Asian Conference on Computer Vision (ACCV). Springer. link ↗
- Zhang, J., Liu, H., Yang, K., Hu, X., Liu, R., & Stiefelhagen, R. (2023). CMX: Cross-Modal Fusion for RGB-X Semantic Segmentation with Transformers. IEEE Transactions on Intelligent Transportation Systems, 24(12), 14801–14813. DOI: 10.1109/TITS.2023.3300537 ↗
So zitieren Sie diese Seite
ScholarGate. (2026, June 3). Multimodal Semantic Segmentation (Multi-Sensor Pixel-Level Scene Understanding). ScholarGate. https://scholargate.app/de/deep-learning/multimodal-semantic-segmentation
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- InstanzsegmentierungDeep Learning↔ compare
- Semantische SegmentierungDeep Learning↔ compare
- Vision TransformerDeep Learning↔ compare
Referenziert von
Einen Fehler auf dieser Seite entdeckt? Melden oder Korrektur vorschlagen →