Machine learningDeep learning / NLP / CV

التجزئة الدلالية متعددة الوسائط

تعين التجزئة الدلالية متعددة الوسائط تسمية فئة دلالية لكل بكسل في المشهد عن طريق دمج المعلومات من وسيطتين حسيتين أو أكثر — وغالبًا ما تكون صور RGB مقترنة بخرائط العمق (RGB-D)، أو سحب نقاط LiDAR، أو الكاميرات الحرارية، أو الأوصاف النصية. تتعلم شبكات التشفير-فك التشفير العميقة محاذاة ودمج الإشارات التكميلية من كل وسيطة، مما ينتج تجزئة أكثر كثافة ودقة من أي نهج أحادي الوسيطة.

افتح في MethodMindقريبًافيديوقريبًاDownload slides

اقرأ الطريقة كاملة

للأعضاء فقط

سجّل الدخول بحساب مجاني لقراءة هذا القسم.

تسجيل الدخول

Method map

The neighbourhood of related methods — select a node to explore.

المصادر

  1. Hazirbas, C., Ma, L., Domokos, C., & Cremers, D. (2016). FuseNet: Incorporating Depth into Semantic Segmentation via Fusion-based CNN Architecture. In Proceedings of the Asian Conference on Computer Vision (ACCV). Springer. link
  2. Zhang, J., Liu, H., Yang, K., Hu, X., Liu, R., & Stiefelhagen, R. (2023). CMX: Cross-Modal Fusion for RGB-X Semantic Segmentation with Transformers. IEEE Transactions on Intelligent Transportation Systems, 24(12), 14801–14813. DOI: 10.1109/TITS.2023.3300537

كيف تستشهد بهذه الصفحة

ScholarGate. (2026, June 3). Multimodal Semantic Segmentation (Multi-Sensor Pixel-Level Scene Understanding). ScholarGate. https://scholargate.app/ar/deep-learning/multimodal-semantic-segmentation

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

يُستشهد بها في

ScholarGateMultimodal Semantic Segmentation (Multimodal Semantic Segmentation (Multi-Sensor Pixel-Level Scene Understanding)). استُرجع بتاريخ 2026-06-15 من https://scholargate.app/ar/deep-learning/multimodal-semantic-segmentation · مجموعة البيانات: https://doi.org/10.5281/zenodo.20539026