面向机器人操作的几何感知四维视频生成 (Geometry-aware 4D Video Generation for Robot Manipulation) - 专知论文

会员服务 ·

0

视频 · 操作 · 机器人 · 对齐 · 机器人操作 ·

Geometry-aware 4D Video Generation for Robot Manipulation

翻译：面向机器人操作的几何感知四维视频生成

Zeyi Liu,Shuang Li,Eric Cousineau,Siyuan Feng,Benjamin Burchfiel,Shuran Song

from arxiv, ICLR 2026; Project website: https://robot4dgen.github.io

Understanding and predicting dynamics of the physical world can enhance a robot's ability to plan and interact effectively in complex environments. While recent video generation models have shown strong potential in modeling dynamic scenes, generating videos that are both temporally coherent and geometrically consistent across camera views remains a significant challenge. To address this, we propose a 4D video generation model that enforces multi-view 3D consistency of generated videos by supervising the model with cross-view pointmap alignment during training. Through this geometric supervision, the model learns a shared 3D scene representation, enabling it to generate spatio-temporally aligned future video sequences from novel viewpoints given a single RGB-D image per view, and without relying on camera poses as input. Compared to existing baselines, our method produces more visually stable and spatially aligned predictions across multiple simulated and real-world robotic datasets. We further show that the predicted 4D videos can be used to recover robot end-effector trajectories using an off-the-shelf 6DoF pose tracker, yielding robot manipulation policies that generalize well to novel camera viewpoints.

翻译：理解并预测物理世界的动态特性能够增强机器人在复杂环境中有效规划和交互的能力。尽管近期的视频生成模型在动态场景建模方面展现出巨大潜力，但生成既具有时间连贯性又在不同相机视角间保持几何一致性的视频仍然是一个重大挑战。为解决此问题，我们提出了一种四维视频生成模型，该模型通过在训练期间利用跨视角点云图对齐进行监督，从而强制保证生成视频的多视角三维一致性。通过这种几何监督，模型学习到一个共享的三维场景表示，使其能够从新颖的视角，在给定每个视角单张RGB-D图像且不依赖输入相机位姿的情况下，生成时空对齐的未来视频序列。与现有基线方法相比，我们的方法在多个模拟和真实世界机器人数据集上生成了视觉上更稳定、空间上更对齐的预测结果。我们进一步证明，所预测的四维视频可用于通过现成的六自由度姿态跟踪器恢复机器人末端执行器轨迹，从而得到能够良好泛化到新相机视角的机器人操作策略。

0

相关内容

视频

机器人领域的视频生成模型：应用、研究挑战与未来展望

机器人领域的视频生成模型：应用、研究挑战与未来展望

专知会员服务

17+阅读 · 1月13日

【CMU博士论文】迈向具备基础先验的四维感知

【CMU博士论文】迈向具备基础先验的四维感知

专知会员服务

15+阅读 · 2025年11月2日

三维与四维世界建模综述

三维与四维世界建模综述

专知会员服务

29+阅读 · 2025年9月12日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

【ETHZ博士论文】《人类动作与交互的生成式建模》

【ETHZ博士论文】《人类动作与交互的生成式建模》

专知会员服务

16+阅读 · 2025年3月28日

视觉中的生成物理人工智能：综述

视觉中的生成物理人工智能：综述

专知会员服务

36+阅读 · 2025年1月26日

【HKUST博士论文】单视图图像的高质量3D生成

【HKUST博士论文】单视图图像的高质量3D生成

专知会员服务

15+阅读 · 2025年1月21日

【伯克利博士论文】揭示任何视频背后的四维世界

【伯克利博士论文】揭示任何视频背后的四维世界

专知会员服务

26+阅读 · 2024年11月24日

《AI生成视频评估综述》

《AI生成视频评估综述》

专知会员服务

28+阅读 · 2024年10月30日

人形机器人深度：产业化渐行渐近，未来前景广阔

人形机器人深度：产业化渐行渐近，未来前景广阔

专知会员服务

39+阅读 · 2024年7月17日

GPT-4视频讲解！附Slides，OpenAI 《GPT-4 技术报告》中英文版下载,151页pdf

GPT-4视频讲解！附Slides，OpenAI 《GPT-4 技术报告》中英文版下载,151页pdf

专知

22+阅读 · 2023年4月10日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

前瞻研究：工业制造领域机器视觉技术应用现状及展望 | 智周报告核心版

前瞻研究：工业制造领域机器视觉技术应用现状及展望 | 智周报告核心版

机器之能

22+阅读 · 2019年6月7日

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

AI科技评论

10+阅读 · 2019年2月2日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

【机器视觉】机器视觉全面解析

【机器视觉】机器视觉全面解析

产业智能官

12+阅读 · 2018年11月12日

【干货】计算机视觉视频理解领域的经典方法和最新成果

【干货】计算机视觉视频理解领域的经典方法和最新成果

新智元

15+阅读 · 2018年5月28日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

面向复杂环境的四足机器人自适应和快速稳定运动控制方法研究及应用

国家自然科学基金

0+阅读 · 2017年12月31日

三维空间基于角度测量的多机器人系统协同定位与编队控制

国家自然科学基金

11+阅读 · 2015年12月31日

野外环境下四足机器人地形辨识与可通过性评价方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于主-被动复合式变刚度柔性关节的四足机器人仿生机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

无人机视频快速4-D重建及时空自适应索引方法研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于草图的几何处理和应用

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

Geometry-Aware Rotary Position Embedding for Consistent Video World Model

Arxiv

0+阅读 · 2月17日

3D-Aware Implicit Motion Control for View-Adaptive Human Video Generation

Arxiv

0+阅读 · 2月14日

Hierarchical Audio-Visual-Proprioceptive Fusion for Precise Robotic Manipulation

Arxiv

0+阅读 · 2月14日

Say, Dream, and Act: Learning Video World Models for Instruction-Driven Robot Manipulation

Arxiv

0+阅读 · 2月11日

MVISTA-4D: View-Consistent 4D World Model with Test-Time Action Inference for Robotic Manipulation

Arxiv

0+阅读 · 2月10日

Open-Vocabulary Functional 3D Human-Scene Interaction Generation

Arxiv

0+阅读 · 1月30日

Learning Geometrically-Grounded 3D Visual Representations for View-Generalizable Robotic Manipulation

Arxiv

0+阅读 · 1月30日

Efficient4D: Fast Dynamic 3D Object Generation from a Single-view Video

Arxiv

0+阅读 · 1月29日

Rethinking Video Generation Model for the Embodied World

Arxiv

0+阅读 · 1月21日

Simulating the Visual World with Artificial Intelligence: A Roadmap

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

机器人操作

相关VIP内容

机器人领域的视频生成模型：应用、研究挑战与未来展望

机器人领域的视频生成模型：应用、研究挑战与未来展望

专知会员服务

17+阅读 · 1月13日

【CMU博士论文】迈向具备基础先验的四维感知

【CMU博士论文】迈向具备基础先验的四维感知

专知会员服务

15+阅读 · 2025年11月2日

三维与四维世界建模综述

三维与四维世界建模综述

专知会员服务

29+阅读 · 2025年9月12日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

【ETHZ博士论文】《人类动作与交互的生成式建模》

【ETHZ博士论文】《人类动作与交互的生成式建模》

专知会员服务

16+阅读 · 2025年3月28日

视觉中的生成物理人工智能：综述

视觉中的生成物理人工智能：综述

专知会员服务

36+阅读 · 2025年1月26日

【HKUST博士论文】单视图图像的高质量3D生成

【HKUST博士论文】单视图图像的高质量3D生成

专知会员服务

15+阅读 · 2025年1月21日

【伯克利博士论文】揭示任何视频背后的四维世界

【伯克利博士论文】揭示任何视频背后的四维世界

专知会员服务

26+阅读 · 2024年11月24日

《AI生成视频评估综述》

《AI生成视频评估综述》

专知会员服务

28+阅读 · 2024年10月30日

人形机器人深度：产业化渐行渐近，未来前景广阔

人形机器人深度：产业化渐行渐近，未来前景广阔

专知会员服务

39+阅读 · 2024年7月17日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

GPT-4视频讲解！附Slides，OpenAI 《GPT-4 技术报告》中英文版下载,151页pdf

GPT-4视频讲解！附Slides，OpenAI 《GPT-4 技术报告》中英文版下载,151页pdf

专知

22+阅读 · 2023年4月10日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

前瞻研究：工业制造领域机器视觉技术应用现状及展望 | 智周报告核心版

前瞻研究：工业制造领域机器视觉技术应用现状及展望 | 智周报告核心版

机器之能

22+阅读 · 2019年6月7日

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

AI科技评论

10+阅读 · 2019年2月2日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

【机器视觉】机器视觉全面解析

【机器视觉】机器视觉全面解析

产业智能官

12+阅读 · 2018年11月12日

【干货】计算机视觉视频理解领域的经典方法和最新成果

【干货】计算机视觉视频理解领域的经典方法和最新成果

新智元

15+阅读 · 2018年5月28日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

相关论文

Geometry-Aware Rotary Position Embedding for Consistent Video World Model

Arxiv

0+阅读 · 2月17日

3D-Aware Implicit Motion Control for View-Adaptive Human Video Generation

Arxiv

0+阅读 · 2月14日

Hierarchical Audio-Visual-Proprioceptive Fusion for Precise Robotic Manipulation

Arxiv

0+阅读 · 2月14日

Say, Dream, and Act: Learning Video World Models for Instruction-Driven Robot Manipulation

Arxiv

0+阅读 · 2月11日

MVISTA-4D: View-Consistent 4D World Model with Test-Time Action Inference for Robotic Manipulation

Arxiv

0+阅读 · 2月10日

Open-Vocabulary Functional 3D Human-Scene Interaction Generation

Arxiv

0+阅读 · 1月30日

Learning Geometrically-Grounded 3D Visual Representations for View-Generalizable Robotic Manipulation

Arxiv

0+阅读 · 1月30日

Efficient4D: Fast Dynamic 3D Object Generation from a Single-view Video

Arxiv

0+阅读 · 1月29日

Rethinking Video Generation Model for the Embodied World

Arxiv

0+阅读 · 1月21日

Simulating the Visual World with Artificial Intelligence: A Roadmap

Arxiv

0+阅读 · 1月13日

相关基金

面向复杂环境的四足机器人自适应和快速稳定运动控制方法研究及应用

国家自然科学基金

0+阅读 · 2017年12月31日

三维空间基于角度测量的多机器人系统协同定位与编队控制

国家自然科学基金

11+阅读 · 2015年12月31日

野外环境下四足机器人地形辨识与可通过性评价方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于主-被动复合式变刚度柔性关节的四足机器人仿生机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

无人机视频快速4-D重建及时空自适应索引方法研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于草图的几何处理和应用

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员