Visual localization in complex indoor environments remains a critical challenge for robotics and AR applications. Sequential localization, where pose estimates are refined over time, is important for autonomous agents. However, traditional methods often require storing extensive image databases or point clouds, leading to significant overhead. This paper introduces a novel, lightweight approach to sequential visual localization using 3D scene graphs. Our method represents the environment with a compact scene graph, where nodes represent objects (with coarse meshes) and edges encode spatial relationships. For each image in the localization phase, we extract per-patch semantic features, predicting object identities. Localization is performed within a particle filter framework. Each particle, representing a camera pose, projects the coarse object meshes from the scene graph into the image, assigning object identities to patches based on visibility. The similarity of the per-patch features, in the input image, and object features from the scene graph determines the weight of a particle. Subsequent images are incorporated sequentially, refining the pose estimate. By leveraging a compact scene graph and efficient semantic matching, our method significantly reduces storage while maintaining performance on real-world datasets. The code will be available at https://github.com/DmblnNicole/sg2loc.


翻译:在复杂室内环境中的视觉定位仍然是机器人和增强现实应用面临的关键挑战。对于自主智能体而言,顺序定位(即随时间推移细化位姿估计)具有重要意义。然而,传统方法通常需要存储庞大的图像数据库或点云,导致显著的开销。本文提出了一种新颖的轻量级方法,利用三维场景图实现顺序视觉定位。我们的方法使用紧凑的场景图表示环境,其中节点代表物体(包含粗略网格),边编码空间关系。在定位阶段的每张图像中,我们提取逐块语义特征,预测物体身份。定位在粒子滤波器框架内进行。每个代表相机位姿的粒子将场景图中的粗略物体网格投影到图像中,基于可见性为图像块分配物体身份。输入图像中逐块特征的相似性以及场景图中的物体特征决定了粒子的权重。后续图像被顺序整合,以细化位姿估计。通过利用紧凑的场景图和高效的语义匹配,我们的方法在维持真实世界数据集性能的同时显著降低了存储开销。代码将发布于https://github.com/DmblnNicole/sg2loc。

0
下载
关闭预览

相关内容

前馈式三维场景建模
专知会员服务
12+阅读 · 4月17日
迈向深度基础模型:基于视觉的深度估计最新趋势
专知会员服务
23+阅读 · 2025年7月16日
三维场景生成:综述
专知会员服务
21+阅读 · 2025年5月9日
专知会员服务
32+阅读 · 2021年10月20日
专知会员服务
67+阅读 · 2021年5月21日
CVPR 2021 Oral | 室内动态场景中的相机重定位
专知会员服务
16+阅读 · 2021年4月12日
计算机视觉方向简介 | 三维重建技术概述
计算机视觉life
26+阅读 · 2019年6月13日
计算机视觉方向简介 | 基于单目视觉的三维重建算法
计算机视觉life
32+阅读 · 2019年4月9日
SkeletonNet:完整的人体三维位姿重建方法
计算机视觉life
21+阅读 · 2019年1月21日
ECCV发布:228页教程全面理解视觉定位技术
专知
17+阅读 · 2018年9月12日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
前馈式三维场景建模
专知会员服务
12+阅读 · 4月17日
迈向深度基础模型:基于视觉的深度估计最新趋势
专知会员服务
23+阅读 · 2025年7月16日
三维场景生成:综述
专知会员服务
21+阅读 · 2025年5月9日
专知会员服务
32+阅读 · 2021年10月20日
专知会员服务
67+阅读 · 2021年5月21日
CVPR 2021 Oral | 室内动态场景中的相机重定位
专知会员服务
16+阅读 · 2021年4月12日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员