Recent visual imitation learning systems have widely adopted multi-camera setups with wrist-mounted cameras as the de facto standard. However, manipulation from a single global view remains challenging, as the policy should capture fine-grained interaction details and identify task-relevant regions without local wrist views. To address this challenge, we present Spatially Conditioned Diffusion Policy (SCDP), a diffusion-based visuomotor policy that achieves precise and robust manipulation in a single-camera setting. Our key idea is that end-effector trajectories can serve as visual attention anchors that reflect task-relevant regions. Building on this idea, SCDP consists of two key components: (i) a visual encoder that produces multi-scale feature maps to capture both broader context and fine-grained visual features, and (ii) a spatial conditioning module that samples point-wise features along intermediate end-effector trajectories in the diffusion loop. Extensive simulation experiments show that SCDP consistently outperforms strong single-view baselines and achieves performance comparable to multi-camera baselines. Real-world experiments further demonstrate precise manipulation and robustness to visual distractors, highlighting the potential of single-camera imitation learning.


翻译:近期视觉模仿学习系统广泛采用多相机设置并将其作为事实标准,其中腕部相机尤为常见。然而,依赖单一全局视角的操纵仍具挑战性,因为策略需要在无局部腕部视角的条件下捕捉细粒度交互细节并识别任务相关区域。为解决该问题,我们提出空间条件扩散策略(SCDP)——一种基于扩散的视觉运动策略,可在单相机设置下实现精确鲁棒的操纵。我们的核心思想是:末端执行器轨迹可作为反映任务相关区域的视觉注意力锚点。基于此思想,SCDP包含两个关键组件:(i) 多尺度特征图生成视觉编码器,用于捕获全局上下文与细粒度视觉特征;(ii) 空间条件模块,在扩散循环中沿中间末端执行器轨迹进行逐点特征采样。大量仿真实验表明,SCDP持续优于强单视角基线,性能可媲美多相机基线。真实世界实验进一步验证了其对视觉干扰物的精确操纵与鲁棒性,突显了单相机模仿学习的潜力。

0
下载
关闭预览

相关内容

《基于扩散模型的条件图像生成》综述
专知会员服务
44+阅读 · 2024年10月1日
扩散模型图像超分辨率等综述
专知会员服务
25+阅读 · 2024年1月2日
【ICML2022】鲁棒强化学习的策略梯度法
专知会员服务
38+阅读 · 2022年5月21日
【NeurIPS 2021】设置多智能体策略梯度的方差
专知会员服务
21+阅读 · 2021年10月24日
【迁移学习】迁移学习在图像分类中的简单应用策略
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月29日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
相关资讯
【迁移学习】迁移学习在图像分类中的简单应用策略
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员