Multimodale Semantische Segmentatie
Multimodale semantische segmentatie kent aan elke pixel in een scène een semantisch klasse-etiket toe door informatie uit twee of meer sensormodaliteiten te fuseren — meestal RGB-beelden gecombineerd met dieptekaarten (RGB-D), LiDAR-puntwolken, thermische camera's of tekstuele beschrijvingen. Diepe encoder-decoder netwerken leren complementaire signalen uit elke modaliteit op elkaar af te stemmen en te fuseren, wat resulteert in dichtere en nauwkeurigere segmentatie dan enige benadering met één modaliteit.
Lees de volledige methode
Log in met een gratis account om dit onderdeel te lezen.
Method map
The neighbourhood of related methods — select a node to explore.
Bronnen
- Hazirbas, C., Ma, L., Domokos, C., & Cremers, D. (2016). FuseNet: Incorporating Depth into Semantic Segmentation via Fusion-based CNN Architecture. In Proceedings of the Asian Conference on Computer Vision (ACCV). Springer. link ↗
- Zhang, J., Liu, H., Yang, K., Hu, X., Liu, R., & Stiefelhagen, R. (2023). CMX: Cross-Modal Fusion for RGB-X Semantic Segmentation with Transformers. IEEE Transactions on Intelligent Transportation Systems, 24(12), 14801–14813. DOI: 10.1109/TITS.2023.3300537 ↗
Deze pagina citeren
ScholarGate. (2026, June 3). Multimodal Semantic Segmentation (Multi-Sensor Pixel-Level Scene Understanding). ScholarGate. https://scholargate.app/nl/deep-learning/multimodal-semantic-segmentation
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- InstantiesegmentatieDeep learning↔ compare
- Semantische segmentatieDeep learning↔ compare
- Transformator voor Visuele WaarnemingDeep learning↔ compare
Geciteerd door
Een fout op deze pagina gezien? Meld het of stel een correctie voor →