3D semantic occupancy prediction offers an intuitive and efficient scene understanding and has attracted significant interest in autonomous driving perception. Existing approaches either rely on full supervision, which demands costly voxel-level annotations, or on self-supervision, which provides limited guidance and yields suboptimal performance. To address these challenges, we propose OccLE, a Label-Efficient 3D Semantic Occupancy Prediction that takes images and LiDAR as inputs and maintains high performance with limited voxel annotations. Our intuition is to decouple the semantic and geometric learning tasks and then fuse the learned feature grids from both tasks for the final semantic occupancy prediction. Therefore, the semantic branch distills 2D foundation model to provide aligned pseudo labels for 2D and 3D semantic learning. The geometric branch integrates image and LiDAR inputs in cross-plane synergy based on their inherency, employing semi-supervision to enhance geometry learning. We fuse semantic-geometric feature grids through Dual Mamba and incorporate a scatter-accumulated projection to supervise unannotated prediction with aligned pseudo labels. Experiments show that OccLE achieves competitive performance with only 10\% of voxel annotations on the SemanticKITTI and Occ3D-nuScenes datasets. The code will be publicly released on https://github.com/NerdFNY/OccLE


翻译:3D语义占据预测提供了一种直观高效的场景理解方式,在自动驾驶感知领域引起了广泛关注。现有方法要么依赖需要昂贵体素级标注的全监督,要么依赖提供有限指导且性能欠佳的自监督。为应对这些挑战,我们提出OccLE,一种标签高效的3D语义占据预测方法,以图像和激光雷达作为输入,在有限体素标注下仍保持高性能。我们的核心思路是将语义学习与几何学习任务解耦,然后融合两个任务学习到的特征网格进行最终语义占据预测。具体而言,语义分支通过蒸馏2D基础模型为2D和3D语义学习提供对齐的伪标签。几何分支基于图像与激光雷达的内在特性,通过跨平面协同机制融合多模态输入,并采用半监督策略增强几何学习。我们通过Dual Mamba融合语义-几何特征网格,并引入散射累积投影机制,利用对齐伪标签监督未标注区域的预测。实验表明,在SemanticKITTI和Occ3D-nuScenes数据集上,OccLE仅需10%的体素标注即可达到具有竞争力的性能。代码将发布于https://github.com/NerdFNY/OccLE。

0
下载
关闭预览

相关内容

3D是英文“Three Dimensions”的简称,中文是指三维、三个维度、三个坐标,即有长、有宽、有高,换句话说,就是立体的,是相对于只有长和宽的平面(2D)而言。
自动驾驶中的3D目标检测研究进展
专知会员服务
11+阅读 · 2025年7月20日
【悉尼大学博士论文】深度3D信息预测与理解,184页pdf
专知会员服务
41+阅读 · 2022年12月27日
基于无标签视频数据的深度预测学习方法综述
专知会员服务
35+阅读 · 2022年5月16日
3D目标检测进展综述
专知会员服务
193+阅读 · 2020年4月24日
李飞飞团队新作 - 有限标签的场景图预测
专知
27+阅读 · 2019年5月6日
微信OCR(1)——公众号图文识别中的文本检测
微信AI
17+阅读 · 2017年11月22日
推荐|caffe-orc主流ocr算法:CNN+BLSTM+CTC架构实现!
全球人工智能
19+阅读 · 2017年10月29日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关VIP内容
自动驾驶中的3D目标检测研究进展
专知会员服务
11+阅读 · 2025年7月20日
【悉尼大学博士论文】深度3D信息预测与理解,184页pdf
专知会员服务
41+阅读 · 2022年12月27日
基于无标签视频数据的深度预测学习方法综述
专知会员服务
35+阅读 · 2022年5月16日
3D目标检测进展综述
专知会员服务
193+阅读 · 2020年4月24日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员