The task of estimating 3D occupancy from surrounding view images is an exciting development in the field of autonomous driving, following the success of Birds Eye View (BEV) perception.This task provides crucial 3D attributes of the driving environment, enhancing the overall understanding and perception of the surrounding space. However, there is still a lack of a baseline to define the task, such as network design, optimization, and evaluation. In this work, we present a simple attempt for 3D occupancy estimation, which is a CNN-based framework designed to reveal several key factors for 3D occupancy estimation. In addition, we explore the relationship between 3D occupancy estimation and other related tasks, such as monocular depth estimation, stereo matching, and BEV perception (3D object detection and map segmentation), which could advance the study on 3D occupancy estimation. For evaluation, we propose a simple sampling strategy to define the metric for occupancy evaluation, which is flexible for current public datasets. Moreover, we establish a new benchmark in terms of the depth estimation metric, where we compare our proposed method with monocular depth estimation methods on the DDAD and Nuscenes datasets.The relevant code will be available in https://github.com/GANWANSHUI/SimpleOccupancy


翻译:从环视图像中估计三维占据信息是自动驾驶领域中一项激动人心的进展,紧随鸟瞰视角(BEV)感知的成功之后。该任务能够提供驾驶环境的关键三维属性,从而增强对周围空间的整体理解与感知能力。然而,目前仍缺乏明确定义该任务的基线方案,例如网络设计、优化及评估方法。在本工作中,我们提出了一种面向三维占据估计的简易尝试,该方案基于CNN框架,旨在揭示三维占据估计中的若干关键因素。此外,我们探讨了三维占据估计与其它相关任务(如单目深度估计、立体匹配及BEV感知(包括三维目标检测与地图分割))之间的关联,这有望推动三维占据估计研究的发展。针对评估环节,我们提出了一种简单的采样策略来定义占据估计指标,该策略可灵活适配当前公开数据集。同时,我们基于深度估计指标建立了一项新基准,将所提方法与DDAD及Nuscenes数据集上的单目深度估计方法进行了对比。相关代码将开源至https://github.com/GANWANSHUI/SimpleOccupancy

0
下载
关闭预览

相关内容

专知会员服务
110+阅读 · 2020年3月12日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
BEVFormer:基于Transformer的自动驾驶BEV纯视觉感知
ICRA 2019 论文速览 | 基于Deep Learning 的SLAM
计算机视觉life
41+阅读 · 2019年7月22日
CVPR2019 | Stereo R-CNN 3D 目标检测
极市平台
27+阅读 · 2019年3月10日
【泡泡一分钟】基于运动估计的激光雷达和相机标定方法
泡泡机器人SLAM
25+阅读 · 2019年1月17日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
12+阅读 · 2021年6月21日
VIP会员
最新内容
ICML 2026 | SARDI:扩散语言模型的自增强检索
专知会员服务
4+阅读 · 6月6日
《国防领域安全采用大语言模型的战略蓝图》
专知会员服务
7+阅读 · 6月6日
ICML 2026 | 演化选择的因果建模
专知会员服务
7+阅读 · 6月5日
综述|学习式3D表征最新进展与趋势
专知会员服务
7+阅读 · 6月5日
人工智能重塑威慑:算法优势的兴起
专知会员服务
8+阅读 · 6月5日
AgentOps综述:智能体系统运维框架
专知会员服务
17+阅读 · 6月4日
《美陆军最新条令:兵力防护》
专知会员服务
14+阅读 · 6月4日
相关资讯
BEVFormer:基于Transformer的自动驾驶BEV纯视觉感知
ICRA 2019 论文速览 | 基于Deep Learning 的SLAM
计算机视觉life
41+阅读 · 2019年7月22日
CVPR2019 | Stereo R-CNN 3D 目标检测
极市平台
27+阅读 · 2019年3月10日
【泡泡一分钟】基于运动估计的激光雷达和相机标定方法
泡泡机器人SLAM
25+阅读 · 2019年1月17日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员