Machine learningDeep learning / NLP / CV

Phân đoạn ngữ nghĩa đa phương thức

Phân đoạn ngữ nghĩa đa phương thức gán nhãn lớp ngữ nghĩa cho mọi pixel trong một cảnh bằng cách hợp nhất thông tin từ hai hoặc nhiều phương thức cảm biến — phổ biến nhất là ảnh RGB kết hợp với bản đồ độ sâu (RGB-D), đám mây điểm LiDAR, camera nhiệt hoặc mô tả văn bản. Các mạng mã hóa-giải mã sâu học cách căn chỉnh và hợp nhất các tín hiệu bổ sung từ mỗi phương thức, tạo ra phân đoạn dày đặc và chính xác hơn bất kỳ phương pháp đơn phương thức nào.

Mở trong MethodMindSắp ra mắtVideoSắp ra mắtDownload slides

Đọc toàn bộ phương pháp

Chỉ dành cho thành viên

Đăng nhập bằng tài khoản miễn phí để đọc phần này.

Đăng nhập

Method map

The neighbourhood of related methods — select a node to explore.

Nguồn tài liệu

  1. Hazirbas, C., Ma, L., Domokos, C., & Cremers, D. (2016). FuseNet: Incorporating Depth into Semantic Segmentation via Fusion-based CNN Architecture. In Proceedings of the Asian Conference on Computer Vision (ACCV). Springer. link
  2. Zhang, J., Liu, H., Yang, K., Hu, X., Liu, R., & Stiefelhagen, R. (2023). CMX: Cross-Modal Fusion for RGB-X Semantic Segmentation with Transformers. IEEE Transactions on Intelligent Transportation Systems, 24(12), 14801–14813. DOI: 10.1109/TITS.2023.3300537

Cách trích dẫn trang này

ScholarGate. (2026, June 3). Multimodal Semantic Segmentation (Multi-Sensor Pixel-Level Scene Understanding). ScholarGate. https://scholargate.app/vi/deep-learning/multimodal-semantic-segmentation

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Được tham chiếu bởi

ScholarGateMultimodal Semantic Segmentation (Multimodal Semantic Segmentation (Multi-Sensor Pixel-Level Scene Understanding)). Truy cập ngày 2026-06-15 từ https://scholargate.app/vi/deep-learning/multimodal-semantic-segmentation · Bộ dữ liệu: https://doi.org/10.5281/zenodo.20539026