Imitation learning with diffusion models has advanced robotic control by capturing the multi-modal action distributions. However, existing methods typically treat observations only as high-level conditions to the denoising network, rather than integrating them into the stochastic dynamics of the diffusion process itself. As a result, the sampling is forced to begin from random noise, weakening the coupling between perception and control and often yielding suboptimal performance. We propose BridgePolicy, a generative visuomotor policy that directly integrates observations into the stochastic dynamics via a diffusion-bridge formulation. By constructing an observation-informed trajectory, BridgePolicy enables sampling to start from a rich and informative prior rather than random noise, substantially improving precision and reliability in control. A key difficulty is that diffusion bridge normally connects distributions of matched dimensionality, while robotic observations are heterogeneous and not naturally aligned with actions. To overcome this, we introduce a multi-modal fusion module and a semantic aligner to unify the visual and state inputs and align the observations with action representations, making diffusion bridge applicable to heterogeneous robot data. Extensive experiments across 52 simulation tasks on three benchmarks and 5 real-world tasks demonstrate that BridgePolicy consistently outperforms state-of-the-art generative policies.


翻译:基于扩散模型的模仿学习通过捕捉多模态动作分布推动了机器人控制的发展。然而,现有方法通常仅将观测作为去噪网络的高层条件,而非将其整合到扩散过程本身的随机动力学中。这导致采样必须从随机噪声开始,削弱了感知与控制之间的耦合,并常常产生次优性能。我们提出BridgePolicy,一种生成式视觉运动策略,通过扩散桥公式将观测直接整合到随机动力学中。通过构建观测信息化的轨迹,BridgePolicy使得采样能够从丰富且信息化的先验而非随机噪声开始,显著提升了控制的精度与可靠性。一个关键难点在于扩散桥通常连接维度匹配的分布,而机器人观测具有异构性且与动作自然不对齐。为克服此问题,我们引入了多模态融合模块和语义对齐器,以统一视觉与状态输入并将观测与动作表示对齐,从而使扩散桥适用于异构机器人数据。在三个基准测试的52项仿真任务和5项现实世界任务上的大量实验表明,BridgePolicy始终优于最先进的生成式策略。

0
下载
关闭预览

相关内容

《扩散模型图像编辑》综述
专知会员服务
28+阅读 · 2024年2月28日
视觉的有效扩散模型综述
专知会员服务
97+阅读 · 2022年10月20日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
VIP会员
相关VIP内容
《扩散模型图像编辑》综述
专知会员服务
28+阅读 · 2024年2月28日
视觉的有效扩散模型综述
专知会员服务
97+阅读 · 2022年10月20日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员