Understanding and predicting dynamics of the physical world can enhance a robot's ability to plan and interact effectively in complex environments. While recent video generation models have shown strong potential in modeling dynamic scenes, generating videos that are both temporally coherent and geometrically consistent across camera views remains a significant challenge. To address this, we propose a 4D video generation model that enforces multi-view 3D consistency of generated videos by supervising the model with cross-view pointmap alignment during training. Through this geometric supervision, the model learns a shared 3D scene representation, enabling it to generate spatio-temporally aligned future video sequences from novel viewpoints given a single RGB-D image per view, and without relying on camera poses as input. Compared to existing baselines, our method produces more visually stable and spatially aligned predictions across multiple simulated and real-world robotic datasets. We further show that the predicted 4D videos can be used to recover robot end-effector trajectories using an off-the-shelf 6DoF pose tracker, yielding robot manipulation policies that generalize well to novel camera viewpoints.


翻译:理解并预测物理世界的动态特性能够增强机器人在复杂环境中有效规划与交互的能力。尽管近期视频生成模型在动态场景建模方面展现出巨大潜力,但生成既具有时间连贯性又在不同相机视角间保持几何一致性的视频仍然是一个重大挑战。为此,我们提出了一种四维视频生成模型,该模型通过在训练期间利用跨视角点云对齐进行监督,从而强制保证生成视频的多视角三维一致性。通过这种几何监督,模型学习到一个共享的三维场景表示,使其能够在每个视角仅给定单张RGB-D图像且不依赖输入相机位姿的情况下,从新视角生成时空对齐的未来视频序列。与现有基线方法相比,我们的方法在多个模拟和真实世界机器人数据集上生成了视觉上更稳定、空间上更对齐的预测结果。我们进一步证明,所预测的四维视频可用于通过现成的六自由度姿态跟踪器恢复机器人末端执行器轨迹,从而得到能够良好泛化到新相机视角的机器人操作策略。

0
下载
关闭预览

相关内容

【CMU博士论文】迈向具备基础先验的四维感知
专知会员服务
15+阅读 · 2025年11月2日
三维与四维世界建模综述
专知会员服务
29+阅读 · 2025年9月12日
视觉中的生成物理人工智能:综述
专知会员服务
36+阅读 · 2025年1月26日
【伯克利博士论文】揭示任何视频背后的四维世界
专知会员服务
26+阅读 · 2024年11月24日
《AI生成视频评估综述》
专知会员服务
28+阅读 · 2024年10月30日
人形机器人深度:产业化渐行渐近,未来前景广阔
专知会员服务
39+阅读 · 2024年7月17日
【机器视觉】机器视觉全面解析
产业智能官
12+阅读 · 2018年11月12日
报名 | 让机器读懂你的意图——人体姿态估计入门
人工智能头条
10+阅读 · 2017年9月19日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【CMU博士论文】迈向具备基础先验的四维感知
专知会员服务
15+阅读 · 2025年11月2日
三维与四维世界建模综述
专知会员服务
29+阅读 · 2025年9月12日
视觉中的生成物理人工智能:综述
专知会员服务
36+阅读 · 2025年1月26日
【伯克利博士论文】揭示任何视频背后的四维世界
专知会员服务
26+阅读 · 2024年11月24日
《AI生成视频评估综述》
专知会员服务
28+阅读 · 2024年10月30日
人形机器人深度:产业化渐行渐近,未来前景广阔
专知会员服务
39+阅读 · 2024年7月17日
相关基金
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员