التجزئة الدلالية متعددة الوسائط
تعين التجزئة الدلالية متعددة الوسائط تسمية فئة دلالية لكل بكسل في المشهد عن طريق دمج المعلومات من وسيطتين حسيتين أو أكثر — وغالبًا ما تكون صور RGB مقترنة بخرائط العمق (RGB-D)، أو سحب نقاط LiDAR، أو الكاميرات الحرارية، أو الأوصاف النصية. تتعلم شبكات التشفير-فك التشفير العميقة محاذاة ودمج الإشارات التكميلية من كل وسيطة، مما ينتج تجزئة أكثر كثافة ودقة من أي نهج أحادي الوسيطة.
اقرأ الطريقة كاملة
سجّل الدخول بحساب مجاني لقراءة هذا القسم.
Method map
The neighbourhood of related methods — select a node to explore.
المصادر
- Hazirbas, C., Ma, L., Domokos, C., & Cremers, D. (2016). FuseNet: Incorporating Depth into Semantic Segmentation via Fusion-based CNN Architecture. In Proceedings of the Asian Conference on Computer Vision (ACCV). Springer. link ↗
- Zhang, J., Liu, H., Yang, K., Hu, X., Liu, R., & Stiefelhagen, R. (2023). CMX: Cross-Modal Fusion for RGB-X Semantic Segmentation with Transformers. IEEE Transactions on Intelligent Transportation Systems, 24(12), 14801–14813. DOI: 10.1109/TITS.2023.3300537 ↗
كيف تستشهد بهذه الصفحة
ScholarGate. (2026, June 3). Multimodal Semantic Segmentation (Multi-Sensor Pixel-Level Scene Understanding). ScholarGate. https://scholargate.app/ar/deep-learning/multimodal-semantic-segmentation
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- تقسيم الكيانات (Instance Segmentation)التعلم العميق↔ compare
- التجزئة الدلاليةالتعلم العميق↔ compare
- محوّل الرؤيةالتعلم العميق↔ compare