状态估计是具身感知的基本组成部分。为了实现安全导航,我们认为机器人(特别是自动驾驶车辆,AV)必须具备检测、跟踪和预测所有目标类别的能力,而非仅限于训练阶段所见类别。在本论文中,我们从三个互补的维度研究开放世界 3D 感知:(i) 用于离线数据整理的长尾识别;(ii) 通过少样本多模态示例实现模型对新概念的快速适配;(iii) 用于快速反应式控制的底层 3D 运动理解。 当代自动驾驶基准测试推动了利用大规模数据训练 3D 检测项的技术发展。值得注意的是,尽管先前的研究在少数常见类别(如行人和汽车)的 3D 目标检测上已近乎达到饱和,但在识别长尾分布中的诸多稀有类别(如障碍物碎片和婴儿推车)时仍然面临挑战。这一局限性对于离线场景挖掘尤为关键,因为识别稀有但关系到安全的关键事件至关重要。研究表明,通过将 RGB 图像与 LiDAR(激光雷达)进行多模态融合,可以显著提升精细化尾部类别的识别准确率;仅凭稀疏的 LiDAR 几何信息难以识别这些精细类别,这表明多模态线索对于长尾 3D 检测至关重要。为此,我们研究了一种简单的后期融合(late-fusion)框架,该框架对独立训练的单模态 LiDAR 和 RGB 检测器进行集成。重要的是,这种构建方式允许我们利用大规模单模态数据集(包含更多稀有类别示例)来训练更强大的 RGB 检测器,这与以往需要配对多模态数据的流行方法不同。虽然此类模型提升了稀有类别的检测精度,但开放世界感知仍需在有限的监督下适配不断演进的新概念。 在互联网规模数据集上训练的视觉语言模型(VLMs)的出现,挑战了开放世界感知的传统定义。我们在这些基座模型(Foundation Models)的背景下重新审视了少样本目标检测(FSOD)。例如,GroundingDINO 等模型的零样本预测在 COCO 数据集上的表现已经优于最先进的少样本检测器(48 AP vs. 33 AP),但其与分布外(OOD)目标域之间仍存在失配(misalignment)。例如,互联网上的卡车(如皮卡)在定义上可能与自动驾驶场景中的卡车(如半挂卡车)存在差异。因此,我们将少样本识别重新定义为:利用少量示例将基座模型与目标概念进行对齐。这些示例可以自然地呈现为多模态形式,结合文本和视觉线索,类似于人类标注者学习标注新类别的过程。具体而言,我们提出了“基座少样本目标检测”(Foundational FSOD)基准协议,旨在评估那些在任意外部数据上预训练、并利用每类 $K$ 个多模态示例进行适配的检测器。结合长尾检测,Foundational FSOD 能够为场景挖掘实现稀有及定义模糊类别的可扩展发现。 最后,除语义识别和离线发现之外,机器人端的开放世界感知系统必须支持快速、反应式的决策制定。在安全关键场景中,我们认为准确的 3D 运动估计对于避障机动比显式分类更为重要。因此,我们研究了 LiDAR 场景流(Scene Flow),该任务旨在估计连续点云之间逐点的 3D 运动。此前的方法虽然达到了厘米级精度,但通常仅在单一传感器上训练,限制了泛化能力。相比之下,我们学习了能够跨越不同且未见过的 LiDAR 传感器进行迁移的运动先验。虽然以往在 LiDAR 分割和检测领域的研究表明,朴素的多数据集训练会降低性能,但我们发现这一传统认知并不适用于运动估计:场景流模型在无需改变架构的情况下,能从跨数据集训练中显著获益。我们的分析表明,底层运动线索对传感器配置的敏感度较低;事实上,在高速运动物体(如高速公路数据集)上训练的模型,即便跨越不同数据集,在高速物体上的表现依然良好。基于这一见解,我们提出了 UniFlow,这是一个简单的前馈模型,通过在具有多种传感器布局的多个大规模场景流数据集上进行联合训练。UniFlow 在 Waymo 和 nuScenes 上创下了新的性能纪录,分别比前序工作提升了 5.1% 和 35.2%,并能泛化至 TruckScenes 和 AEVAScenes 等未见数据集。

成为VIP会员查看完整内容
8

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【CMU博士论文】迈向具备基础先验的四维感知
专知会员服务
15+阅读 · 2025年11月2日
【CMU博士论文】学习创建三维内容:几何、外观与物理
专知会员服务
13+阅读 · 2025年9月2日
【CMU博士论文】水下三维视觉感知与生成
专知会员服务
19+阅读 · 2025年8月20日
【HKUST博士论文】从查询到提示:走向开放世界感知
专知会员服务
21+阅读 · 2025年1月17日
【CMU博士论文】开放环境视频中的多人三维重建,184页pdf
专知会员服务
34+阅读 · 2023年10月11日
【CMU博士论文】开放世界目标检测与跟踪,168页pdf
专知会员服务
61+阅读 · 2021年6月14日
数据驱动的态势认知技术及发展思考
专知
19+阅读 · 2022年7月12日
计算机视觉方向简介 | 基于单目视觉的三维重建算法
计算机视觉life
32+阅读 · 2019年4月9日
深度学习在自动驾驶感知领域的应用
AI100
11+阅读 · 2019年3月6日
论文浅尝 | 基于开放世界的知识图谱补全
开放知识图谱
11+阅读 · 2018年7月3日
论文浅尝 | Open world Knowledge Graph Completion
开放知识图谱
19+阅读 · 2018年1月30日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
最新内容
 军事通信系统与设备的技术演进综述
专知会员服务
0+阅读 · 16分钟前
《北约标准:医疗评估手册》174页
专知会员服务
0+阅读 · 24分钟前
《提升生成模型的安全性与保障》博士论文
专知会员服务
0+阅读 · 28分钟前
美国当前高超音速导弹发展概述
专知会员服务
4+阅读 · 4月19日
无人机蜂群建模与仿真方法
专知会员服务
8+阅读 · 4月19日
澳大利亚发布《国防战略(2026年)》
专知会员服务
2+阅读 · 4月19日
全球高超音速武器最新发展趋势
专知会员服务
3+阅读 · 4月19日
相关VIP内容
【CMU博士论文】迈向具备基础先验的四维感知
专知会员服务
15+阅读 · 2025年11月2日
【CMU博士论文】学习创建三维内容:几何、外观与物理
专知会员服务
13+阅读 · 2025年9月2日
【CMU博士论文】水下三维视觉感知与生成
专知会员服务
19+阅读 · 2025年8月20日
【HKUST博士论文】从查询到提示:走向开放世界感知
专知会员服务
21+阅读 · 2025年1月17日
【CMU博士论文】开放环境视频中的多人三维重建,184页pdf
专知会员服务
34+阅读 · 2023年10月11日
【CMU博士论文】开放世界目标检测与跟踪,168页pdf
专知会员服务
61+阅读 · 2021年6月14日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员