Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation - 专知论文

会员服务 ·

0

设计 · 表征学习 · 轨迹预测 · 语义理解 · 交互 ·

Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation

翻译：Pri4R：利用特权4D表征学习视觉-语言-动作模型的世界动态

Jisoo Kim,Jungbin Cho,Sanghyeok Chu,Ananya Bal,Jinhyung Kim,Gunhee Lee,Sihaeng Lee,Seung Hwan Kim,Bohyung Han,Hyunmin Lee,Laszlo A. Jeni,Seungryong Kim

Humans learn not only how their bodies move, but also how the surrounding world responds to their actions. In contrast, while recent Vision-Language-Action (VLA) models exhibit impressive semantic understanding, they often fail to capture the spatiotemporal dynamics governing physical interaction. In this paper, we introduce Pri4R, a simple yet effective approach that endows VLA models with an implicit understanding of world dynamics by leveraging privileged 4D information during training. Specifically, Pri4R augments VLAs with a lightweight point track head that predicts 3D point tracks. By injecting VLA features into this head to jointly predict future 3D trajectories, the model learns to incorporate evolving scene geometry within its shared representation space, enabling more physically aware context for precise control. Due to its architectural simplicity, Pri4R is compatible with dominant VLA design patterns with minimal changes. During inference, we run the model using the original VLA architecture unchanged; Pri4R adds no extra inputs, outputs, or computational overhead. Across simulation and real-world evaluations, Pri4R significantly improves performance on challenging manipulation tasks, including a +10% gain on LIBERO-Long and a +40% gain on RoboCasa. We further show that 3D point track prediction is an effective supervision target for learning action-world dynamics, and validate our design choices through extensive ablations.

翻译：人类不仅学习自身躯体的运动方式，还学习周围世界对其动作的响应规律。相比之下，尽管近期视觉-语言-动作模型展现出卓越的语义理解能力，却往往难以捕捉支配物理交互的时空动态。本文提出Pri4R——一种简洁而高效的方法，通过在训练阶段利用特权4D信息，赋予VLA模型对世界动态的隐式理解。具体而言，Pri4R为VLA模型增配轻量级三维点轨迹预测头，通过将VLA特征注入该预测头以联合预测未来三维轨迹，使模型学会在共享表征空间中融合演化的场景几何信息，从而为精确控制提供更具物理感知的上下文。得益于其架构简洁性，Pri4R仅需极小改动即可适配主流VLA设计范式。在推理阶段，模型完全沿用原始VLA架构运行，无需额外输入输出或增加计算开销。在仿真与真实环境评估中，Pri4R在复杂操作任务上取得显著性能提升：在LIBERO-Long任务中提升10%，在RoboCasa任务中提升40%。我们进一步证明三维点轨迹预测是学习动作-世界动态的有效监督目标，并通过大量消融实验验证了设计决策的有效性。

0

相关内容

设计是对现有状的一种重新认识和打破重组的过程，设计让一切变得更美。

【综述】机器人学习中的世界模型：全面综述

【综述】机器人学习中的世界模型：全面综述

专知会员服务

20+阅读 · 5月4日

视觉-语言-动作模型解析：从模块构成到里程碑与挑战

视觉-语言-动作模型解析：从模块构成到里程碑与挑战

专知会员服务

17+阅读 · 2025年12月17日

面向具身操作的高效视觉–语言–动作模型：系统综述

面向具身操作的高效视觉–语言–动作模型：系统综述

专知会员服务

26+阅读 · 2025年10月22日

视觉-语言-动作（VLA）模型的前世今生

视觉-语言-动作（VLA）模型的前世今生

专知会员服务

20+阅读 · 2025年8月29日

70页pdf《视觉-语言-动作模型综述：一种基于动作离散化的视角》

70页pdf《视觉-语言-动作模型综述：一种基于动作离散化的视角》

专知会员服务

21+阅读 · 2025年7月3日

视觉语言动作模型：概念、进展、应用与挑战

视觉语言动作模型：概念、进展、应用与挑战

专知会员服务

19+阅读 · 2025年5月18日

【CVPR2025】4D LangSplat：基于多模态大语言模型的4D语言高斯溅射

【CVPR2025】4D LangSplat：基于多模态大语言模型的4D语言高斯溅射

专知会员服务

13+阅读 · 2025年3月16日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

41+阅读 · 2025年3月9日

【博士论文】学习视觉-语言表示以实现多模态理解

【博士论文】学习视觉-语言表示以实现多模态理解

专知会员服务

28+阅读 · 2025年2月8日

【香港科技大学等】视觉-语言智能:任务、表示学习和大模型，Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

【香港科技大学等】视觉-语言智能:任务、表示学习和大模型，Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

专知会员服务

44+阅读 · 2022年3月8日

GPT-4视频讲解！附Slides，OpenAI 《GPT-4 技术报告》中英文版下载,151页pdf

GPT-4视频讲解！附Slides，OpenAI 《GPT-4 技术报告》中英文版下载,151页pdf

专知

22+阅读 · 2023年4月10日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

KDD 2019 | 自动探索特征组合，第四范式提出新方法AutoCross

KDD 2019 | 自动探索特征组合，第四范式提出新方法AutoCross

机器之心

18+阅读 · 2019年6月12日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

Deeplearning4j 快速入门

Deeplearning4j 快速入门

人工智能头条

14+阅读 · 2018年12月24日

《模式识别与机器学习(PRML)》正式开放免费下载

《模式识别与机器学习(PRML)》正式开放免费下载

AINLP

29+阅读 · 2018年11月27日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

Deep Image Prior：深度卷积网络先天就理解自然图像

Deep Image Prior：深度卷积网络先天就理解自然图像

极市平台

10+阅读 · 2017年12月5日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

基于共性视觉特征与反馈机制的SAR图像目标检测方法研究

国家自然科学基金

3+阅读 · 2017年12月31日

多层动态网络的建模、群体动力学分析与控制

国家自然科学基金

3+阅读 · 2015年12月31日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于深层特征学习的RGB-D人体行为识别方法

国家自然科学基金

4+阅读 · 2015年12月31日

临界态对生物神经网络学习、记忆以及模式识别能力的影响

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

无人机视频快速4-D重建及时空自适应索引方法研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

运动目标间语义关系的时空建模及可视化研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

OmniVLA-RL: A Vision-Language-Action Model with Spatial Understanding and Online RL

Arxiv

0+阅读 · 4月24日

PokeVLA: Empowering Pocket-Sized Vision-Language-Action Model with Comprehensive World Knowledge Guidance

Arxiv

0+阅读 · 4月22日

ViVa: A Video-Generative Value Model for Robot Reinforcement Learning

Arxiv

0+阅读 · 4月9日

3D CAVLA: Leveraging Depth and 3D Context to Generalize Vision Language Action Models for Unseen Tasks

Arxiv

0+阅读 · 3月30日

VP-VLA: Visual Prompting as an Interface for Vision-Language-Action Models

Arxiv

0+阅读 · 3月23日

DiT4DiT: Jointly Modeling Video Dynamics and Actions for Generalizable Robot Control

Arxiv

0+阅读 · 3月22日

Not All Features Are Created Equal: A Mechanistic Study of Vision-Language-Action Models

Arxiv

0+阅读 · 3月19日

TwinRL-VLA: Digital Twin-Driven Reinforcement Learning for Real-World Robotic Manipulation

Arxiv

0+阅读 · 3月19日

DynVLA: Learning World Dynamics for Action Reasoning in Autonomous Driving

Arxiv

0+阅读 · 3月11日

Chain of World: World Model Thinking in Latent Motion

Arxiv

0+阅读 · 3月3日

VIP会员

文章信息

相关主题

最新内容

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

专知会员服务

1+阅读 · 今天15:43

比利时发布用于实时战场军事装备识别的离线人工智能系统

比利时发布用于实时战场军事装备识别的离线人工智能系统

专知会员服务

1+阅读 · 今天15:41

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

专知会员服务

1+阅读 · 今天15:37

超越网格：作战环境对炮兵的影响

超越网格：作战环境对炮兵的影响

专知会员服务

1+阅读 · 今天15:35

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

4+阅读 · 今天12:11

综述 | 推理时控制：可信大语言模型的运行时治理全景

综述 | 推理时控制：可信大语言模型的运行时治理全景

专知会员服务

3+阅读 · 今天12:10

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

4+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

5+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

5+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

14+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

8+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

8+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

9+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

12+阅读 · 5月29日

相关VIP内容

【综述】机器人学习中的世界模型：全面综述

【综述】机器人学习中的世界模型：全面综述

专知会员服务

20+阅读 · 5月4日

视觉-语言-动作模型解析：从模块构成到里程碑与挑战

视觉-语言-动作模型解析：从模块构成到里程碑与挑战

专知会员服务

17+阅读 · 2025年12月17日

面向具身操作的高效视觉–语言–动作模型：系统综述

面向具身操作的高效视觉–语言–动作模型：系统综述

专知会员服务

26+阅读 · 2025年10月22日

视觉-语言-动作（VLA）模型的前世今生

视觉-语言-动作（VLA）模型的前世今生

专知会员服务

20+阅读 · 2025年8月29日

70页pdf《视觉-语言-动作模型综述：一种基于动作离散化的视角》

70页pdf《视觉-语言-动作模型综述：一种基于动作离散化的视角》

专知会员服务

21+阅读 · 2025年7月3日

视觉语言动作模型：概念、进展、应用与挑战

视觉语言动作模型：概念、进展、应用与挑战

专知会员服务

19+阅读 · 2025年5月18日

【CVPR2025】4D LangSplat：基于多模态大语言模型的4D语言高斯溅射

【CVPR2025】4D LangSplat：基于多模态大语言模型的4D语言高斯溅射

专知会员服务

13+阅读 · 2025年3月16日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

41+阅读 · 2025年3月9日

【博士论文】学习视觉-语言表示以实现多模态理解

【博士论文】学习视觉-语言表示以实现多模态理解

专知会员服务

28+阅读 · 2025年2月8日

【香港科技大学等】视觉-语言智能:任务、表示学习和大模型，Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

【香港科技大学等】视觉-语言智能:任务、表示学习和大模型，Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

专知会员服务

44+阅读 · 2022年3月8日

热门VIP内容

开通专知VIP会员享更多权益服务

比利时发布用于实时战场军事装备识别的离线人工智能系统

超越网格：作战环境对炮兵的影响

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

相关资讯

GPT-4视频讲解！附Slides，OpenAI 《GPT-4 技术报告》中英文版下载,151页pdf

GPT-4视频讲解！附Slides，OpenAI 《GPT-4 技术报告》中英文版下载,151页pdf

专知

22+阅读 · 2023年4月10日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

KDD 2019 | 自动探索特征组合，第四范式提出新方法AutoCross

KDD 2019 | 自动探索特征组合，第四范式提出新方法AutoCross

机器之心

18+阅读 · 2019年6月12日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

Deeplearning4j 快速入门

Deeplearning4j 快速入门

人工智能头条

14+阅读 · 2018年12月24日

《模式识别与机器学习(PRML)》正式开放免费下载

《模式识别与机器学习(PRML)》正式开放免费下载

AINLP

29+阅读 · 2018年11月27日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

Deep Image Prior：深度卷积网络先天就理解自然图像

Deep Image Prior：深度卷积网络先天就理解自然图像

极市平台

10+阅读 · 2017年12月5日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

OmniVLA-RL: A Vision-Language-Action Model with Spatial Understanding and Online RL

Arxiv

0+阅读 · 4月24日

PokeVLA: Empowering Pocket-Sized Vision-Language-Action Model with Comprehensive World Knowledge Guidance

Arxiv

0+阅读 · 4月22日

ViVa: A Video-Generative Value Model for Robot Reinforcement Learning

Arxiv

0+阅读 · 4月9日

3D CAVLA: Leveraging Depth and 3D Context to Generalize Vision Language Action Models for Unseen Tasks

Arxiv

0+阅读 · 3月30日

VP-VLA: Visual Prompting as an Interface for Vision-Language-Action Models

Arxiv

0+阅读 · 3月23日

DiT4DiT: Jointly Modeling Video Dynamics and Actions for Generalizable Robot Control

Arxiv

0+阅读 · 3月22日

Not All Features Are Created Equal: A Mechanistic Study of Vision-Language-Action Models

Arxiv

0+阅读 · 3月19日

TwinRL-VLA: Digital Twin-Driven Reinforcement Learning for Real-World Robotic Manipulation

Arxiv

0+阅读 · 3月19日

DynVLA: Learning World Dynamics for Action Reasoning in Autonomous Driving

Arxiv

0+阅读 · 3月11日

Chain of World: World Model Thinking in Latent Motion

Arxiv

0+阅读 · 3月3日

相关基金

基于共性视觉特征与反馈机制的SAR图像目标检测方法研究

国家自然科学基金

3+阅读 · 2017年12月31日

多层动态网络的建模、群体动力学分析与控制

国家自然科学基金

3+阅读 · 2015年12月31日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于深层特征学习的RGB-D人体行为识别方法

国家自然科学基金

4+阅读 · 2015年12月31日

临界态对生物神经网络学习、记忆以及模式识别能力的影响

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

无人机视频快速4-D重建及时空自适应索引方法研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

运动目标间语义关系的时空建模及可视化研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员