Geometry-aware 4D Video Generation for Robot Manipulation - 专知论文

会员服务 ·

0

视频 · 操作 · 机器人 · 对齐 · 机器人操作 ·

Geometry-aware 4D Video Generation for Robot Manipulation

翻译：面向机器人操作的几何感知四维视频生成

Zeyi Liu,Shuang Li,Eric Cousineau,Siyuan Feng,Benjamin Burchfiel,Shuran Song

from arxiv, ICLR 2026; Project website: https://robot4dgen.github.io

Understanding and predicting dynamics of the physical world can enhance a robot's ability to plan and interact effectively in complex environments. While recent video generation models have shown strong potential in modeling dynamic scenes, generating videos that are both temporally coherent and geometrically consistent across camera views remains a significant challenge. To address this, we propose a 4D video generation model that enforces multi-view 3D consistency of generated videos by supervising the model with cross-view pointmap alignment during training. Through this geometric supervision, the model learns a shared 3D scene representation, enabling it to generate spatio-temporally aligned future video sequences from novel viewpoints given a single RGB-D image per view, and without relying on camera poses as input. Compared to existing baselines, our method produces more visually stable and spatially aligned predictions across multiple simulated and real-world robotic datasets. We further show that the predicted 4D videos can be used to recover robot end-effector trajectories using an off-the-shelf 6DoF pose tracker, yielding robot manipulation policies that generalize well to novel camera viewpoints.

翻译：理解并预测物理世界的动态特性能够增强机器人在复杂环境中有效规划与交互的能力。尽管近期视频生成模型在动态场景建模方面展现出巨大潜力，但生成既具有时间连贯性又在不同相机视角间保持几何一致性的视频仍然是一个重大挑战。为此，我们提出了一种四维视频生成模型，该模型通过在训练期间利用跨视角点云对齐进行监督，从而强制保证生成视频的多视角三维一致性。通过这种几何监督，模型学习到一个共享的三维场景表示，使其能够在每个视角仅给定单张RGB-D图像且不依赖输入相机位姿的情况下，从新视角生成时空对齐的未来视频序列。与现有基线方法相比，我们的方法在多个模拟和真实世界机器人数据集上生成了视觉上更稳定、空间上更对齐的预测结果。我们进一步证明，所预测的四维视频可用于通过现成的六自由度姿态跟踪器恢复机器人末端执行器轨迹，从而得到能够良好泛化到新相机视角的机器人操作策略。

0

相关内容

视频

机器人领域的视频生成模型：应用、研究挑战与未来展望

机器人领域的视频生成模型：应用、研究挑战与未来展望

专知会员服务

17+阅读 · 1月13日

【CMU博士论文】迈向具备基础先验的四维感知

【CMU博士论文】迈向具备基础先验的四维感知

专知会员服务

15+阅读 · 2025年11月2日

三维与四维世界建模综述

三维与四维世界建模综述

专知会员服务

31+阅读 · 2025年9月12日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

视觉中的生成物理人工智能：综述

视觉中的生成物理人工智能：综述

专知会员服务

38+阅读 · 2025年1月26日

【伯克利博士论文】揭示任何视频背后的四维世界

【伯克利博士论文】揭示任何视频背后的四维世界

专知会员服务

26+阅读 · 2024年11月24日

《AI生成视频评估综述》

《AI生成视频评估综述》

专知会员服务

28+阅读 · 2024年10月30日

人形机器人深度：产业化渐行渐近，未来前景广阔

人形机器人深度：产业化渐行渐近，未来前景广阔

专知会员服务

39+阅读 · 2024年7月17日

人形机器人系列报告：AI超预期助力产业落地，核心零部件配套星辰大海

人形机器人系列报告：AI超预期助力产业落地，核心零部件配套星辰大海

专知会员服务

45+阅读 · 2024年3月12日

数字人包含哪些生成式AI技术？上交最新「基于神经网络的生成式三维数字人研究综述：表示、渲染与学习」

数字人包含哪些生成式AI技术？上交最新「基于神经网络的生成式三维数字人研究综述：表示、渲染与学习」

专知会员服务

50+阅读 · 2023年5月1日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

机器人4.0白皮书（附下载）：云-边-端融合的机器人系统和架构

机器人4.0白皮书（附下载）：云-边-端融合的机器人系统和架构

机器人大讲堂

19+阅读 · 2019年7月5日

前瞻研究：工业制造领域机器视觉技术应用现状及展望 | 智周报告核心版

前瞻研究：工业制造领域机器视觉技术应用现状及展望 | 智周报告核心版

机器之能

22+阅读 · 2019年6月7日

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

AI科技评论

10+阅读 · 2019年2月2日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

【机器视觉】工业视觉新方向起底、人工智能检测设备实现手机外观缺陷全自动检测、康耐视：当深度学习遇见机器视觉

【机器视觉】工业视觉新方向起底、人工智能检测设备实现手机外观缺陷全自动检测、康耐视：当深度学习遇见机器视觉

产业智能官

25+阅读 · 2019年1月4日

【机器视觉】机器视觉全面解析

【机器视觉】机器视觉全面解析

产业智能官

12+阅读 · 2018年11月12日

【干货】计算机视觉视频理解领域的经典方法和最新成果

【干货】计算机视觉视频理解领域的经典方法和最新成果

新智元

15+阅读 · 2018年5月28日

报名 | 让机器读懂你的意图——人体姿态估计入门

报名 | 让机器读懂你的意图——人体姿态估计入门

人工智能头条

10+阅读 · 2017年9月19日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

面向复杂环境的四足机器人自适应和快速稳定运动控制方法研究及应用

国家自然科学基金

0+阅读 · 2017年12月31日

人类步行机理认知下的双足机器人步态与智能协同进化理论基础

国家自然科学基金

0+阅读 · 2015年12月31日

三维空间基于角度测量的多机器人系统协同定位与编队控制

国家自然科学基金

11+阅读 · 2015年12月31日

基于三维激光测距的移动机器人室外环境语义地图构建

国家自然科学基金

2+阅读 · 2015年12月31日

野外环境下四足机器人地形辨识与可通过性评价方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于主-被动复合式变刚度柔性关节的四足机器人仿生机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

无人机视频快速4-D重建及时空自适应索引方法研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

GeoDiff4D: Geometry-Aware Diffusion for 4D Head Avatar Reconstruction

Arxiv

0+阅读 · 2月27日

Human Video Generation from a Single Image with 3D Pose and View Control

Arxiv

0+阅读 · 2月24日

MeshMimic: Geometry-Aware Humanoid Motion Learning through 3D Scene Reconstruction

Arxiv

0+阅读 · 2月17日

3D-Aware Implicit Motion Control for View-Adaptive Human Video Generation

Arxiv

0+阅读 · 2月14日

Hierarchical Audio-Visual-Proprioceptive Fusion for Precise Robotic Manipulation

Arxiv

0+阅读 · 2月14日

Code2Worlds: Empowering Coding LLMs for 4D World Generation

Arxiv

0+阅读 · 2月12日

Say, Dream, and Act: Learning Video World Models for Instruction-Driven Robot Manipulation

Arxiv

0+阅读 · 2月11日

MVISTA-4D: View-Consistent 4D World Model with Test-Time Action Inference for Robotic Manipulation

Arxiv

0+阅读 · 2月10日

Open-Vocabulary Functional 3D Human-Scene Interaction Generation

Arxiv

0+阅读 · 1月30日

Learning Geometrically-Grounded 3D Visual Representations for View-Generalizable Robotic Manipulation

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

机器人操作

最新内容

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

0+阅读 · 23分钟前

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

0+阅读 · 17分钟前

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

0+阅读 · 22分钟前

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

4+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

5+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

4+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

2+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

5+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

2+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

3+阅读 · 7月17日

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

专知会员服务

11+阅读 · 7月16日

《无人地面战车（UGV）的崛起》报告

《无人地面战车（UGV）的崛起》报告

专知会员服务

7+阅读 · 7月16日

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

专知会员服务

6+阅读 · 7月16日

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

专知会员服务

13+阅读 · 7月16日

美陆军任务式指挥人工智能解决方案

美陆军任务式指挥人工智能解决方案

专知会员服务

13+阅读 · 7月16日

相关VIP内容

机器人领域的视频生成模型：应用、研究挑战与未来展望

机器人领域的视频生成模型：应用、研究挑战与未来展望

专知会员服务

17+阅读 · 1月13日

【CMU博士论文】迈向具备基础先验的四维感知

【CMU博士论文】迈向具备基础先验的四维感知

专知会员服务

15+阅读 · 2025年11月2日

三维与四维世界建模综述

三维与四维世界建模综述

专知会员服务

31+阅读 · 2025年9月12日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

视觉中的生成物理人工智能：综述

视觉中的生成物理人工智能：综述

专知会员服务

38+阅读 · 2025年1月26日

【伯克利博士论文】揭示任何视频背后的四维世界

【伯克利博士论文】揭示任何视频背后的四维世界

专知会员服务

26+阅读 · 2024年11月24日

《AI生成视频评估综述》

《AI生成视频评估综述》

专知会员服务

28+阅读 · 2024年10月30日

人形机器人深度：产业化渐行渐近，未来前景广阔

人形机器人深度：产业化渐行渐近，未来前景广阔

专知会员服务

39+阅读 · 2024年7月17日

人形机器人系列报告：AI超预期助力产业落地，核心零部件配套星辰大海

人形机器人系列报告：AI超预期助力产业落地，核心零部件配套星辰大海

专知会员服务

45+阅读 · 2024年3月12日

数字人包含哪些生成式AI技术？上交最新「基于神经网络的生成式三维数字人研究综述：表示、渲染与学习」

数字人包含哪些生成式AI技术？上交最新「基于神经网络的生成式三维数字人研究综述：表示、渲染与学习」

专知会员服务

50+阅读 · 2023年5月1日

热门VIP内容

开通专知VIP会员享更多权益服务

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

相关资讯

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

机器人4.0白皮书（附下载）：云-边-端融合的机器人系统和架构

机器人4.0白皮书（附下载）：云-边-端融合的机器人系统和架构

机器人大讲堂

19+阅读 · 2019年7月5日

前瞻研究：工业制造领域机器视觉技术应用现状及展望 | 智周报告核心版

前瞻研究：工业制造领域机器视觉技术应用现状及展望 | 智周报告核心版

机器之能

22+阅读 · 2019年6月7日

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

AI科技评论

10+阅读 · 2019年2月2日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

【机器视觉】工业视觉新方向起底、人工智能检测设备实现手机外观缺陷全自动检测、康耐视：当深度学习遇见机器视觉

【机器视觉】工业视觉新方向起底、人工智能检测设备实现手机外观缺陷全自动检测、康耐视：当深度学习遇见机器视觉

产业智能官

25+阅读 · 2019年1月4日

【机器视觉】机器视觉全面解析

【机器视觉】机器视觉全面解析

产业智能官

12+阅读 · 2018年11月12日

【干货】计算机视觉视频理解领域的经典方法和最新成果

【干货】计算机视觉视频理解领域的经典方法和最新成果

新智元

15+阅读 · 2018年5月28日

报名 | 让机器读懂你的意图——人体姿态估计入门

报名 | 让机器读懂你的意图——人体姿态估计入门

人工智能头条

10+阅读 · 2017年9月19日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

相关论文

GeoDiff4D: Geometry-Aware Diffusion for 4D Head Avatar Reconstruction

Arxiv

0+阅读 · 2月27日

Human Video Generation from a Single Image with 3D Pose and View Control

Arxiv

0+阅读 · 2月24日

MeshMimic: Geometry-Aware Humanoid Motion Learning through 3D Scene Reconstruction

Arxiv

0+阅读 · 2月17日

3D-Aware Implicit Motion Control for View-Adaptive Human Video Generation

Arxiv

0+阅读 · 2月14日

Hierarchical Audio-Visual-Proprioceptive Fusion for Precise Robotic Manipulation

Arxiv

0+阅读 · 2月14日

Code2Worlds: Empowering Coding LLMs for 4D World Generation

Arxiv

0+阅读 · 2月12日

Say, Dream, and Act: Learning Video World Models for Instruction-Driven Robot Manipulation

Arxiv

0+阅读 · 2月11日

MVISTA-4D: View-Consistent 4D World Model with Test-Time Action Inference for Robotic Manipulation

Arxiv

0+阅读 · 2月10日

Open-Vocabulary Functional 3D Human-Scene Interaction Generation

Arxiv

0+阅读 · 1月30日

Learning Geometrically-Grounded 3D Visual Representations for View-Generalizable Robotic Manipulation

Arxiv

0+阅读 · 1月30日

相关基金

面向复杂环境的四足机器人自适应和快速稳定运动控制方法研究及应用

国家自然科学基金

0+阅读 · 2017年12月31日

人类步行机理认知下的双足机器人步态与智能协同进化理论基础

国家自然科学基金

0+阅读 · 2015年12月31日

三维空间基于角度测量的多机器人系统协同定位与编队控制

国家自然科学基金

11+阅读 · 2015年12月31日

基于三维激光测距的移动机器人室外环境语义地图构建

国家自然科学基金

2+阅读 · 2015年12月31日

野外环境下四足机器人地形辨识与可通过性评价方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于主-被动复合式变刚度柔性关节的四足机器人仿生机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

无人机视频快速4-D重建及时空自适应索引方法研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员