BridgeV2W：通过具身掩码将视频生成模型桥接到具身世界模型 (BridgeV2W: Bridging Video Generation Models to Embodied World Models via Embodiment Masks) - 专知论文

会员服务 ·

0

视频 · 掩码 · 视频生成模型 · 视频生成 · 生成模型 ·

BridgeV2W: Bridging Video Generation Models to Embodied World Models via Embodiment Masks

翻译：BridgeV2W：通过具身掩码将视频生成模型桥接到具身世界模型

Yixiang Chen,Peiyan Li,Jiabing Yang,Keji He,Xiangnan Wu,Yuan Xu,Kai Wang,Jing Liu,Nianfeng Liu,Yan Huang,Liang Wang

Embodied world models have emerged as a promising paradigm in robotics, most of which leverage large-scale Internet videos or pretrained video generation models to enrich visual and motion priors. However, they still face key challenges: a misalignment between coordinate-space actions and pixel-space videos, sensitivity to camera viewpoint, and non-unified architectures across embodiments. To this end, we present BridgeV2W, which converts coordinate-space actions into pixel-aligned embodiment masks rendered from the URDF and camera parameters. These masks are then injected into a pretrained video generation model via a ControlNet-style pathway, which aligns the action control signals with predicted videos, adds view-specific conditioning to accommodate camera viewpoints, and yields a unified world model architecture across embodiments. To mitigate overfitting to static backgrounds, BridgeV2W further introduces a flow-based motion loss that focuses on learning dynamic and task-relevant regions. Experiments on single-arm (DROID) and dual-arm (AgiBot-G1) datasets, covering diverse and challenging conditions with unseen viewpoints and scenes, show that BridgeV2W improves video generation quality compared to prior state-of-the-art methods. We further demonstrate the potential of BridgeV2W on downstream real-world tasks, including policy evaluation and goal-conditioned planning. More results can be found on our project website at https://BridgeV2W.github.io .

翻译：具身世界模型已成为机器人学中一种前景广阔的范式，其中大多数利用大规模互联网视频或预训练的视频生成模型来丰富视觉和运动先验。然而，它们仍面临关键挑战：坐标空间动作与像素空间视频之间的错位、对相机视角的敏感性，以及跨具身形态的非统一架构。为此，我们提出了BridgeV2W，它将坐标空间动作转换为从URDF和相机参数渲染出的像素对齐的具身掩码。这些掩码随后通过一个ControlNet风格的路径注入到预训练的视频生成模型中，该路径将动作控制信号与预测视频对齐，添加视角特定的条件以适应相机视点，并产生一个跨具身形态的统一世界模型架构。为了减轻对静态背景的过拟合，BridgeV2W进一步引入了一种基于光流的运动损失，专注于学习动态和任务相关区域。在单臂（DROID）和双臂（AgiBot-G1）数据集上的实验，涵盖了具有未见视角和场景的多样且具有挑战性的条件，表明BridgeV2W相较于先前最先进的方法提高了视频生成质量。我们进一步展示了BridgeV2W在下游现实世界任务上的潜力，包括策略评估和目标条件规划。更多结果可在我们的项目网站 https://BridgeV2W.github.io 上找到。

0

相关内容

视频

具身智能中的心理世界建模：深度综述

具身智能中的心理世界建模：深度综述

专知会员服务

28+阅读 · 1月10日

具身智能中的世界模型：全面综述

具身智能中的世界模型：全面综述

专知会员服务

44+阅读 · 2025年10月21日

三维与四维世界建模综述

三维与四维世界建模综述

专知会员服务

29+阅读 · 2025年9月12日

面向具身操作的视觉-语言-动作模型综述

面向具身操作的视觉-语言-动作模型综述

专知会员服务

28+阅读 · 2025年8月23日

具身智能体：世界建模

具身智能体：世界建模

专知会员服务

38+阅读 · 2025年7月8日

具身智能学习综述：基于物理模拟器与世界模型的方法

具身智能学习综述：基于物理模拟器与世界模型的方法

专知会员服务

32+阅读 · 2025年7月2日

【ETHZ博士论文】《人类动作与交互的生成式建模》

【ETHZ博士论文】《人类动作与交互的生成式建模》

专知会员服务

16+阅读 · 2025年3月28日

大模型走向物理世界，TeleAI 发布大模型驱动的具身智能综述，覆盖300篇文献

大模型走向物理世界，TeleAI 发布大模型驱动的具身智能综述，覆盖300篇文献

专知会员服务

47+阅读 · 2024年9月4日

多模态大模型时代的全球首篇《具身智能》综述

多模态大模型时代的全球首篇《具身智能》综述

专知会员服务

76+阅读 · 2024年7月26日

【剑桥博士论文】利用世界表示中的多模态和结构，144页pdf

【剑桥博士论文】利用世界表示中的多模态和结构，144页pdf

专知会员服务

54+阅读 · 2023年3月30日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

让大卫雕塑跳舞、蒙娜丽莎说话，英伟达视频合成有如此多「骚操作」

让大卫雕塑跳舞、蒙娜丽莎说话，英伟达视频合成有如此多「骚操作」

机器之心

10+阅读 · 2019年10月28日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

专知

15+阅读 · 2019年5月17日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

基于DASH的交互式三维视频系统建模

国家自然科学基金

1+阅读 · 2015年12月31日

融合人脑意图与力觉反馈的外骨骼机器人步态控制CPG模型及调节方法

国家自然科学基金

0+阅读 · 2015年12月31日

三维空间基于角度测量的多机器人系统协同定位与编队控制

国家自然科学基金

11+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

空地机器人网络的同时视觉目标定位与分布式运动规划

国家自然科学基金

4+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

Code2Worlds: Empowering Coding LLMs for 4D World Generation

Arxiv

0+阅读 · 2月12日

ContactGaussian-WM: Learning Physics-Grounded World Model from Videos

Arxiv

0+阅读 · 2月11日

MoWM: Mixture-of-World-Models for Embodied Planning via Latent-to-Pixel Feature Modulation

Arxiv

0+阅读 · 2月10日

ConsisDrive: Identity-Preserving Driving World Models for Video Generation by Instance Mask

Arxiv

0+阅读 · 2月6日

LIVE: Long-horizon Interactive Video World Modeling

Arxiv

0+阅读 · 2月3日

ConsisDrive: Identity-Preserving Driving World Models for Video Generation by Instance Mask

Arxiv

0+阅读 · 2月3日

Grounding Generated Videos in Feasible Plans via World Models

Arxiv

0+阅读 · 2月2日

TC-IDM: Grounding Video Generation for Executable Zero-shot Robot Motion

Arxiv

0+阅读 · 1月26日

Rethinking Video Generation Model for the Embodied World

Arxiv

0+阅读 · 1月21日

SceneFoundry: Generating Interactive Infinite 3D Worlds

Arxiv

0+阅读 · 1月16日

VIP会员

文章信息

相关主题

视频生成模型

相关VIP内容

具身智能中的心理世界建模：深度综述

具身智能中的心理世界建模：深度综述

专知会员服务

28+阅读 · 1月10日

具身智能中的世界模型：全面综述

具身智能中的世界模型：全面综述

专知会员服务

44+阅读 · 2025年10月21日

三维与四维世界建模综述

三维与四维世界建模综述

专知会员服务

29+阅读 · 2025年9月12日

面向具身操作的视觉-语言-动作模型综述

面向具身操作的视觉-语言-动作模型综述

专知会员服务

28+阅读 · 2025年8月23日

具身智能体：世界建模

具身智能体：世界建模

专知会员服务

38+阅读 · 2025年7月8日

具身智能学习综述：基于物理模拟器与世界模型的方法

具身智能学习综述：基于物理模拟器与世界模型的方法

专知会员服务

32+阅读 · 2025年7月2日

【ETHZ博士论文】《人类动作与交互的生成式建模》

【ETHZ博士论文】《人类动作与交互的生成式建模》

专知会员服务

16+阅读 · 2025年3月28日

大模型走向物理世界，TeleAI 发布大模型驱动的具身智能综述，覆盖300篇文献

大模型走向物理世界，TeleAI 发布大模型驱动的具身智能综述，覆盖300篇文献

专知会员服务

47+阅读 · 2024年9月4日

多模态大模型时代的全球首篇《具身智能》综述

多模态大模型时代的全球首篇《具身智能》综述

专知会员服务

76+阅读 · 2024年7月26日

【剑桥博士论文】利用世界表示中的多模态和结构，144页pdf

【剑桥博士论文】利用世界表示中的多模态和结构，144页pdf

专知会员服务

54+阅读 · 2023年3月30日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

让大卫雕塑跳舞、蒙娜丽莎说话，英伟达视频合成有如此多「骚操作」

让大卫雕塑跳舞、蒙娜丽莎说话，英伟达视频合成有如此多「骚操作」

机器之心

10+阅读 · 2019年10月28日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

专知

15+阅读 · 2019年5月17日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

相关论文

Code2Worlds: Empowering Coding LLMs for 4D World Generation

Arxiv

0+阅读 · 2月12日

ContactGaussian-WM: Learning Physics-Grounded World Model from Videos

Arxiv

0+阅读 · 2月11日

MoWM: Mixture-of-World-Models for Embodied Planning via Latent-to-Pixel Feature Modulation

Arxiv

0+阅读 · 2月10日

ConsisDrive: Identity-Preserving Driving World Models for Video Generation by Instance Mask

Arxiv

0+阅读 · 2月6日

LIVE: Long-horizon Interactive Video World Modeling

Arxiv

0+阅读 · 2月3日

ConsisDrive: Identity-Preserving Driving World Models for Video Generation by Instance Mask

Arxiv

0+阅读 · 2月3日

Grounding Generated Videos in Feasible Plans via World Models

Arxiv

0+阅读 · 2月2日

TC-IDM: Grounding Video Generation for Executable Zero-shot Robot Motion

Arxiv

0+阅读 · 1月26日

Rethinking Video Generation Model for the Embodied World

Arxiv

0+阅读 · 1月21日

SceneFoundry: Generating Interactive Infinite 3D Worlds

Arxiv

0+阅读 · 1月16日

相关基金

基于DASH的交互式三维视频系统建模

国家自然科学基金

1+阅读 · 2015年12月31日

融合人脑意图与力觉反馈的外骨骼机器人步态控制CPG模型及调节方法

国家自然科学基金

0+阅读 · 2015年12月31日

三维空间基于角度测量的多机器人系统协同定位与编队控制

国家自然科学基金

11+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

空地机器人网络的同时视觉目标定位与分布式运动规划

国家自然科学基金

4+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员