Robotic manipulation requires understanding both the 3D spatial structure of the environment and its temporal evolution, yet most existing policies overlook one or both. They typically rely on 2D visual observations and backbones pretrained on static image--text pairs, resulting in high data requirements and limited understanding of environment dynamics. To address this, we introduce MV-VDP, a multi-view video diffusion policy that jointly models the 3D spatio-temporal state of the environment. The core idea is to simultaneously predict multi-view heatmap videos and RGB videos, which 1) align the representation format of video pretraining with action finetuning, and 2) specify not only what actions the robot should take, but also how the environment is expected to evolve in response to those actions. Extensive experiments show that MV-VDP enables data-efficient, robust, generalizable, and interpretable manipulation. With only ten demonstration trajectories and without additional pretraining, MV-VDP successfully performs complex real-world tasks, demonstrates strong robustness across a range of model hyperparameters, generalizes to out-of-distribution settings, and predicts realistic future videos. Experiments on Meta-World and real-world robotic platforms demonstrate that MV-VDP consistently outperforms video-prediction--based, 3D-based, and vision--language--action models, establishing a new state of the art in data-efficient multi-task manipulation.


翻译:机器人操作需要同时理解环境的三维空间结构及其时间演化,然而现有大多数策略忽视了其中一个或两个维度。它们通常依赖二维视觉观测和基于静态图像-文本对预训练的主干网络,导致数据需求高且对环境动态的理解有限。为解决这一问题,我们提出MV-VDP——一种联合建模环境三维时空状态的多视角视频扩散策略。其核心思想是同步预测多视角热图视频与RGB视频,这能够:1)统一视频预训练与动作微调的表示格式;2)不仅明确机器人应执行的动作,还能预测环境对这些动作的响应演化过程。大量实验表明,MV-VDP实现了数据高效、鲁棒、可泛化且可解释的操作能力。仅需十条演示轨迹且无需额外预训练,MV-VDP即可成功完成复杂现实任务,展现出对多种模型超参数的强鲁棒性,可泛化至分布外场景,并预测出逼真的未来视频。在Meta-World与真实机器人平台上的实验证明,MV-VDP持续优于基于视频预测、三维建模以及视觉-语言-动作模型的方法,在数据高效的多任务操作领域树立了新标杆。

0
下载
关闭预览

相关内容

多模态融合与视觉-语言模型:面向机器人视觉的综述
专知会员服务
35+阅读 · 2025年4月5日
【博士论文】学习视觉-语言表示以实现多模态理解
专知会员服务
28+阅读 · 2025年2月8日
三维视觉中的扩散模型:综述
专知会员服务
33+阅读 · 2024年10月9日
多模态可控扩散模型综述
专知会员服务
39+阅读 · 2024年7月20日
【CMU博士论文】开放环境视频中的多人三维重建,184页pdf
专知会员服务
34+阅读 · 2023年10月11日
多模态认知计算
专知会员服务
182+阅读 · 2022年9月16日
专知会员服务
68+阅读 · 2021年10月15日
视频中的多目标跟踪【附PPT与视频资料】
人工智能前沿讲习班
30+阅读 · 2018年11月29日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
多模态融合与视觉-语言模型:面向机器人视觉的综述
专知会员服务
35+阅读 · 2025年4月5日
【博士论文】学习视觉-语言表示以实现多模态理解
专知会员服务
28+阅读 · 2025年2月8日
三维视觉中的扩散模型:综述
专知会员服务
33+阅读 · 2024年10月9日
多模态可控扩散模型综述
专知会员服务
39+阅读 · 2024年7月20日
【CMU博士论文】开放环境视频中的多人三维重建,184页pdf
专知会员服务
34+阅读 · 2023年10月11日
多模态认知计算
专知会员服务
182+阅读 · 2022年9月16日
专知会员服务
68+阅读 · 2021年10月15日
相关基金
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员