Imitation learning with diffusion models has advanced robotic control by capturing the multi-modal action distributions. However, existing methods typically treat observations only as high-level conditions to the denoising network, rather than integrating them into the stochastic dynamics of the diffusion process itself. As a result, the sampling is forced to begin from random noise, weakening the coupling between perception and control and often yielding suboptimal performance. We propose BridgePolicy, a generative visuomotor policy that directly integrates observations into the stochastic dynamics via a diffusion-bridge formulation. By constructing an observation-informed trajectory, BridgePolicy enables sampling to start from a rich and informative prior rather than random noise, substantially improving precision and reliability in control. A key difficulty is that diffusion bridge normally connects distributions of matched dimensionality, while robotic observations are heterogeneous and not naturally aligned with actions. To overcome this, we introduce a semantic aligner to unify the visual and state inputs and align the observations with action representations, making diffusion bridge applicable to heterogeneous robot data. Extensive experiments across 52 simulation tasks on three benchmarks and 5 real-world tasks demonstrate that BridgePolicy consistently outperforms state-of-the-art generative policies. Our code is available at https://jianghcsr.github.io/BridgePolicy_page/.


翻译:利用扩散模型进行模仿学习通过捕捉多模态动作分布,推动了机器人控制技术的进步。然而,现有方法通常仅将观测视为去噪网络的高层条件,而非将其整合到扩散过程本身的随机动力学中。因此,采样被迫从随机噪声起始,削弱了感知与控制之间的耦合,往往导致次优性能。我们提出BridgePolicy,这是一种生成式视觉运动策略,通过扩散桥公式将观测直接整合到随机动力学中。通过构建观测信息驱动的轨迹,BridgePolicy使得采样能够从丰富的信息先验而非随机噪声开始,显著提升了控制的精度与可靠性。关键难点在于扩散桥通常连接维度匹配的分布,而机器人观测具有异构性,且无法自然与动作对齐。为解决此问题,我们引入语义对齐器以统一视觉与状态输入,并将观测与动作表示对齐,使扩散桥适用于异构机器人数据。在三个基准的52个仿真任务及5个真实世界任务上的大量实验表明,BridgePolicy持续优于最先进的生成式策略。我们的代码已开源在https://jianghcsr.github.io/BridgePolicy_page/。

0
下载
关闭预览

相关内容

《扩散模型及其应用》最新综述
专知会员服务
50+阅读 · 2024年8月21日
《扩散模型图像编辑》综述
专知会员服务
28+阅读 · 2024年2月28日
视觉的有效扩散模型综述
专知会员服务
97+阅读 · 2022年10月20日
【迁移学习】迁移学习在图像分类中的简单应用策略
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月5日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员