Accurate 6-DoF object pose estimation and tracking are critical for reliable robotic manipulation. However, zero-shot methods often fail under viewpoint-induced ambiguities and fixed-camera setups struggle when objects move or become self-occluded. To address these challenges, we propose an active pose estimation pipeline that combines a Vision-Language Model (VLM) with "robotic imagination" to dynamically detect and resolve ambiguities in real time. In an offline stage, we render a dense set of views of the CAD model, compute the FoundationPose entropy for each view, and construct a geometric-aware prompt that includes low-entropy (unambiguous) and high-entropy (ambiguous) examples. At runtime, the system: (1) queries the VLM on the live image for an ambiguity score; (2) if ambiguity is detected, imagines a discrete set of candidate camera poses by rendering virtual views, scores each based on a weighted combination of VLM ambiguity probability and FoundationPose entropy, and then moves the camera to the Next-Best-View (NBV) to obtain a disambiguated pose estimation. Furthermore, since moving objects may leave the camera's field of view, we introduce an active pose tracking module: a diffusion-policy trained via imitation learning, which generates camera trajectories that preserve object visibility and minimize pose ambiguity. Experiments in simulation and real-world show that our approach significantly outperforms classical baselines.


翻译:精确的6自由度物体姿态估计与跟踪对于实现可靠的机器人操作至关重要。然而,零样本方法在视角引发的模糊性下常常失效,而固定相机配置在物体移动或发生自遮挡时也难以应对。为应对这些挑战,我们提出了一种主动姿态估计流程,该流程将视觉语言模型与"机器人想象"相结合,以动态检测并实时解决模糊性问题。在离线阶段,我们对CAD模型渲染密集视角集,计算每个视角的FoundationPose熵,并构建包含低熵(明确)与高熵(模糊)示例的几何感知提示。在运行时,系统执行以下步骤:(1) 对实时图像查询VLM获取模糊度评分;(2) 若检测到模糊性,则通过渲染虚拟视角生成离散的候选相机姿态集合,依据VLM模糊概率与FoundationPose熵的加权组合对每个姿态评分,随后移动相机至最优观测视角以获取去模糊化的姿态估计。此外,针对移动物体可能脱离相机视野的问题,我们引入了主动姿态跟踪模块:该模块采用通过模仿学习训练的扩散策略,生成能够保持物体可见性并最小化姿态模糊性的相机轨迹。仿真与真实环境实验表明,本方法显著优于经典基线模型。

0
下载
关闭预览

相关内容

基于深度学习的物体姿态估计综述
专知会员服务
26+阅读 · 2024年5月15日
最新《深度学习人体姿态估计》综述论文,26页pdf
专知会员服务
40+阅读 · 2020年12月29日
【NeurIPS 2020】一种端到端全自由度抓取姿态估计网络简介
专知会员服务
20+阅读 · 2020年10月18日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
计算机视觉方向简介 | 人体姿态估计
计算机视觉life
28+阅读 · 2019年6月6日
深度学习人体姿态估计算法综述
AI前线
25+阅读 · 2019年5月19日
【机器人】机器人PID控制
产业智能官
10+阅读 · 2018年11月25日
报名 | 让机器读懂你的意图——人体姿态估计入门
人工智能头条
10+阅读 · 2017年9月19日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
52+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
VIP会员
最新内容
Palantir AIP平台:连接智能体与决策
专知会员服务
4+阅读 · 今天1:22
《美海军软件测试战略》90页slides
专知会员服务
6+阅读 · 今天1:00
面向具身智能与机器人仿真的三维生成:综述
专知会员服务
6+阅读 · 4月30日
相关基金
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
52+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员