Modern autonomous driving depends on accurate metric 3D understanding for perception, reconstruction, and planning, which in turn requires reliable multi-camera depth prediction. However, the outward-facing nature of vehicle-mounted surround-view camera rigs inherently limits visual overlap across views, challenging the correspondence-based assumptions that underpin conventional multi-view geometry. To bridge this gap, we present SurroundNEXO, named after the Spanish word nexo for a geometric link, a low-overlap multi-camera metric depth framework that grounds cross-view reasoning in ego-centric geometry rather than dense visual correspondences. Instead of directly enforcing early global fusion, SurroundNEXO first assigns image tokens globally comparable ego-frame viewing directions through Ego-Ray Positional Encoding, then uses sparse LiDAR measurements as metric anchors to propagate absolute scale cues, and finally expands feature interaction progressively from view-local modeling to decomposed spatio-temporal reasoning and global integration. This design enables metric-scale depth prediction with improved spatial consistency across weakly overlapping cameras. Across low-overlap autonomous driving benchmarks, including NuScenes, Waymo and DDAD, SurroundNEXO reduces single-view error by 33.2%, improves cross-view consistency by 10.5%, and enhances metric reconstruction quality by 25.6% compared with SOTA methods. It further remains robust under extremely sparse depth prompts and exhibits strong zero-shot generalization to unseen camera layouts.


翻译:现代自主驾驶依赖精确的度量三维理解来实现感知、重建和规划,而这又需要可靠的多相机深度预测。然而,车载环视相机系统的外向式布局本质上限制了视图间的视觉重叠,挑战了支撑传统多视图几何的基于对应的假设。为弥合这一差距,我们提出SurroundNEXO(以西班牙语“nexo”命名,意为几何连接),这是一个低重叠多相机度量深度框架,它基于自车几何而非密集视觉对应进行跨视图推理。SurroundNEXO并非直接强制早期全局融合,而是首先通过自射线位置编码将图像令牌分配为全局可比较的自车框架视角方向,然后利用稀疏激光雷达测量作为度量锚点传播绝对尺度线索,最后逐步扩展特征交互,从视图局部建模到分解的时空推理和全局集成。这种设计能够实现弱重叠相机间空间一致性更佳的度量尺度深度预测。在包括NuScenes、Waymo和DDAD在内的低重叠自主驾驶基准测试中,与最先进方法相比,SurroundNEXO将单视图误差降低33.2%,跨视图一致性提升10.5%,度重建质量提升25.6%。它还在极度稀疏深度提示下保持鲁棒性,并对未见相机布局展现出强大的零样本泛化能力。

0
下载
关闭预览

相关内容

自动驾驶中的3D目标检测研究进展
专知会员服务
11+阅读 · 2025年7月20日
LargeAD:面向自动驾驶的大规模跨传感器数据预训练
专知会员服务
17+阅读 · 2025年1月8日
【CVPR2023】MSeg3D:面向自动驾驶的多模态3D语义分割
专知会员服务
16+阅读 · 2023年3月17日
自动驾驶高精度定位如何在复杂环境进行
智能交通技术
18+阅读 · 2019年9月27日
自动驾驶车辆定位技术概述|厚势汽车
厚势
10+阅读 · 2019年5月16日
自动驾驶汽车技术路线简介
智能交通技术
15+阅读 · 2019年4月25日
深度学习在自动驾驶感知领域的应用
AI100
11+阅读 · 2019年3月6日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
2+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员