近年来,三维目标检测和新类别检测领域取得了显著进展,但关于三维物体性(3D objectness)泛化学习的研究仍然相对不足。本文聚焦于开放世界三维物体性学习(open-world 3D objectness learning),其核心目标是在三维场景中检测出所有物体,包括训练阶段从未见过的新类别。传统的封闭集三维检测器在开放世界场景中难以具备良好的泛化能力,而直接引入三维开放词汇模型(3D open-vocabulary models)以实现开放世界能力,又常受到词汇扩展和语义重叠问题的限制。 为实现泛化的三维物体发现(generalized 3D object discovery),我们提出了一种类无关(class-agnostic)开放世界无提示三维检测器(Open-World Prompt-free 3D Detector, OP3Det),能够在无需手工构造文本提示(text prompts)的情况下检测任意三维场景中的物体。OP3Det 利用二维基础模型(2D foundation models)强大的泛化与零样本能力,结合二维语义先验与三维几何先验,生成类无关的候选区域,从而拓展三维物体发现的范围。随后,OP3Det 通过跨模态专家混合(cross-modal mixture of experts)结构,将点云与RGB图像中的互补信息动态路由至单模态与多模态特征通道,以学习泛化的三维物体性表示(generalized 3D objectness)

大量实验结果表明,OP3Det 取得了卓越性能:在开放世界三维检测任务上,性能较现有方法提升最高可达 16.0% AR,并相比封闭世界三维检测器提升 13.5%,显著验证了其在开放世界三维物体发现中的有效性。

成为VIP会员查看完整内容
11

相关内容

【ICML2023】面向决策Transformer的未来条件无监督预训练
专知会员服务
44+阅读 · 2023年5月30日
【ECCV2022】对比视觉Transformer的在线持续学习
专知会员服务
23+阅读 · 2022年7月29日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
初学者系列:Deep FM详解
专知
109+阅读 · 2019年8月26日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Arxiv
174+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
497+阅读 · 2023年3月31日
Arxiv
82+阅读 · 2023年3月26日
VIP会员
相关VIP内容
【ICML2023】面向决策Transformer的未来条件无监督预训练
专知会员服务
44+阅读 · 2023年5月30日
【ECCV2022】对比视觉Transformer的在线持续学习
专知会员服务
23+阅读 · 2022年7月29日
相关资讯
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
初学者系列:Deep FM详解
专知
109+阅读 · 2019年8月26日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
微信扫码咨询专知VIP会员