联合嵌入预测世界模型中物理规划成功的关键因素是什么？ (What Drives Success in Physical Planning with Joint-Embedding Predictive World Models?) - 专知论文

会员服务 ·

0

算法 · 规划算法 · 世界模型 · 联合嵌入 · 嵌入 ·

2025 年 12 月 30 日

What Drives Success in Physical Planning with Joint-Embedding Predictive World Models?

翻译：联合嵌入预测世界模型中物理规划成功的关键因素是什么？

Basile Terver,Tsung-Yen Yang,Jean Ponce,Adrien Bardes,Yann LeCun

A long-standing challenge in AI is to develop agents capable of solving a wide range of physical tasks and generalizing to new, unseen tasks and environments. A popular recent approach involves training a world model from state-action trajectories and subsequently use it with a planning algorithm to solve new tasks. Planning is commonly performed in the input space, but a recent family of methods has introduced planning algorithms that optimize in the learned representation space of the world model, with the promise that abstracting irrelevant details yields more efficient planning. In this work, we characterize models from this family as JEPA-WMs and investigate the technical choices that make algorithms from this class work. We propose a comprehensive study of several key components with the objective of finding the optimal approach within the family. We conducted experiments using both simulated environments and real-world robotic data, and studied how the model architecture, the training objective, and the planning algorithm affect planning success. We combine our findings to propose a model that outperforms two established baselines, DINO-WM and V-JEPA-2-AC, in both navigation and manipulation tasks. Code, data and checkpoints are available at https://github.com/facebookresearch/jepa-wms.

翻译：人工智能领域长期存在的一个挑战是开发能够解决广泛物理任务并泛化至未见任务与环境的智能体。近期流行的方法涉及从状态-动作轨迹训练世界模型，随后结合规划算法解决新任务。规划通常在输入空间中进行，但近期一系列方法引入了在世界模型学习到的表示空间中进行优化的规划算法，其核心假设是通过抽象无关细节可实现更高效的规划。在本研究中，我们将此类模型定义为JEPA-WM，并深入探究该类别算法有效的技术选择。我们提出对多个关键组件进行系统性研究，旨在确定该框架内的最优方法。通过仿真环境与真实机器人数据的实验，我们分析了模型架构、训练目标与规划算法如何影响规划成功率。综合研究结果，我们提出的模型在导航与操作任务中均优于DINO-WM和V-JEPA-2-AC两个基准模型。代码、数据与模型检查点公开于https://github.com/facebookresearch/jepa-wms。

0

相关内容

在数学和计算机科学之中，算法（Algorithm）为一个计算的具体步骤，常用于计算、数据处理和自动推理。精确而言，算法是一个表示为有限长列表的有效方法。算法应包含清晰定义的指令用于计算函数。来自维基百科：算法

走向通用人工智能之路，世界模型为何不可或缺？

走向通用人工智能之路，世界模型为何不可或缺？

专知会员服务

17+阅读 · 2025年7月1日

物理引导的深度学习研究综述：进展、挑战和展望

物理引导的深度学习研究综述：进展、挑战和展望

专知会员服务

30+阅读 · 2025年5月11日

《混合专家系统（Mixture-of-Experts）的综合研究：算法、理论与应用

《混合专家系统（Mixture-of-Experts）的综合研究：算法、理论与应用

专知会员服务

46+阅读 · 2025年3月12日

【CMU博士论文】在模型不准确的情况下实现可靠的基于模型的规划

【CMU博士论文】在模型不准确的情况下实现可靠的基于模型的规划

专知会员服务

19+阅读 · 2025年3月7日

大语言模型在规划与调度问题上的应用

大语言模型在规划与调度问题上的应用

专知会员服务

51+阅读 · 2025年1月12日

空间智能如何？牛津大学博士论文《深度具身智能体的空间推理与规划》230页pdf

空间智能如何？牛津大学博士论文《深度具身智能体的空间推理与规划》230页pdf

专知会员服务

58+阅读 · 2024年10月23日

【牛津大学博士论文】深度具身智能体的空间推理与规划

【牛津大学博士论文】深度具身智能体的空间推理与规划

专知会员服务

45+阅读 · 2024年10月2日

智能规划:未来战争智权之争的关键

智能规划:未来战争智权之争的关键

专知会员服务

65+阅读 · 2023年11月8日

【硬核书】规划算法 (Planning Algorithm)，1023页pdf，Steven M. Illinois大学

【硬核书】规划算法 (Planning Algorithm)，1023页pdf，Steven M. Illinois大学

专知会员服务

167+阅读 · 2022年4月10日

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

专知会员服务

118+阅读 · 2022年3月18日

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

专知

15+阅读 · 2022年7月22日

如何在深度学习嵌入知识？美国佛蒙特大学196页博士论文《在深度学习系统中利用领域知识》讲解

如何在深度学习嵌入知识？美国佛蒙特大学196页博士论文《在深度学习系统中利用领域知识》讲解

专知

32+阅读 · 2022年4月28日

【硬核书】规划算法 (Planning Algorithm)，1023页pdf，Steven M. Illinois大学

【硬核书】规划算法 (Planning Algorithm)，1023页pdf，Steven M. Illinois大学

专知

11+阅读 · 2022年4月10日

【综述】交通流量预测，附15页论文下载

【综述】交通流量预测，附15页论文下载

专知

23+阅读 · 2020年4月23日

如何构建行业知识图谱（以医疗行业为例）

如何构建行业知识图谱（以医疗行业为例）

专知

31+阅读 · 2019年11月7日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

【知识图谱】知识图谱怎么与深度学习结合？

【知识图谱】知识图谱怎么与深度学习结合？

产业智能官

160+阅读 · 2018年12月18日

综述AI未来：神经科学启发的类脑计算

综述AI未来：神经科学启发的类脑计算

人工智能学家

11+阅读 · 2018年4月24日

展望：模型驱动的深度学习

展望：模型驱动的深度学习

人工智能学家

12+阅读 · 2018年1月23日

【知识图谱】大规模知识图谱的构建、推理及应用

【知识图谱】大规模知识图谱的构建、推理及应用

产业智能官

38+阅读 · 2017年9月12日

基于复杂耦合时间线的深空探测器自主任务规划方法研究

国家自然科学基金

3+阅读 · 2017年12月31日

支持智能终端通信的物联网管控机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

状态空间搜索的anytime模式及其高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于低维连续表示的启发式智能规划技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

大规模轨迹数据的地理空间关联解译及分析挖掘研究

国家自然科学基金

1+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

信息物理系统动力学演化融合机制与行为建模研究

国家自然科学基金

0+阅读 · 2014年12月31日

PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelligence

Arxiv

0+阅读 · 2月4日

Accurate and Efficient World Modeling with Masked Latent Transformers

Arxiv

0+阅读 · 2月3日

PlanTRansformer: Unified Prediction and Planning with Goal-conditioned Transformer

Arxiv

0+阅读 · 2月3日

Research on World Models Is Not Merely Injecting World Knowledge into Specific Tasks

Arxiv

0+阅读 · 2月2日

An Efficient and Multi-Modal Navigation System with One-Step World Model

Arxiv

0+阅读 · 1月18日

Beyond Task and Motion Planning: Hierarchical Robot Planning with General-Purpose Skills

Arxiv

1+阅读 · 1月17日

Goal Force: Teaching Video Models To Accomplish Physics-Conditioned Goals

Arxiv

0+阅读 · 1月9日

What Drives Success in Physical Planning with Joint-Embedding Predictive World Models?

Arxiv

0+阅读 · 1月8日

Physics-Driven Data Generation for Contact-Rich Manipulation via Trajectory Optimization

Arxiv

0+阅读 · 1月7日

Hybrid Motion Planning with Deep Reinforcement Learning for Mobile Robot Navigation

Arxiv

0+阅读 · 2025年12月31日

VIP会员

文章信息

相关主题

相关VIP内容

走向通用人工智能之路，世界模型为何不可或缺？

走向通用人工智能之路，世界模型为何不可或缺？

专知会员服务

17+阅读 · 2025年7月1日

物理引导的深度学习研究综述：进展、挑战和展望

物理引导的深度学习研究综述：进展、挑战和展望

专知会员服务

30+阅读 · 2025年5月11日

《混合专家系统（Mixture-of-Experts）的综合研究：算法、理论与应用

《混合专家系统（Mixture-of-Experts）的综合研究：算法、理论与应用

专知会员服务

46+阅读 · 2025年3月12日

【CMU博士论文】在模型不准确的情况下实现可靠的基于模型的规划

【CMU博士论文】在模型不准确的情况下实现可靠的基于模型的规划

专知会员服务

19+阅读 · 2025年3月7日

大语言模型在规划与调度问题上的应用

大语言模型在规划与调度问题上的应用

专知会员服务

51+阅读 · 2025年1月12日

空间智能如何？牛津大学博士论文《深度具身智能体的空间推理与规划》230页pdf

空间智能如何？牛津大学博士论文《深度具身智能体的空间推理与规划》230页pdf

专知会员服务

58+阅读 · 2024年10月23日

【牛津大学博士论文】深度具身智能体的空间推理与规划

【牛津大学博士论文】深度具身智能体的空间推理与规划

专知会员服务

45+阅读 · 2024年10月2日

智能规划:未来战争智权之争的关键

智能规划:未来战争智权之争的关键

专知会员服务

65+阅读 · 2023年11月8日

【硬核书】规划算法 (Planning Algorithm)，1023页pdf，Steven M. Illinois大学

【硬核书】规划算法 (Planning Algorithm)，1023页pdf，Steven M. Illinois大学

专知会员服务

167+阅读 · 2022年4月10日

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

专知会员服务

118+阅读 · 2022年3月18日

热门VIP内容

开通专知VIP会员享更多权益服务

论学习、公平性与复杂度

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

2025中国人工智能学会系列白皮书⸺棋盘上的人工智能|附下载

通用智能体评估的逻辑架构

相关资讯

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

专知

15+阅读 · 2022年7月22日

如何在深度学习嵌入知识？美国佛蒙特大学196页博士论文《在深度学习系统中利用领域知识》讲解

如何在深度学习嵌入知识？美国佛蒙特大学196页博士论文《在深度学习系统中利用领域知识》讲解

专知

32+阅读 · 2022年4月28日

【硬核书】规划算法 (Planning Algorithm)，1023页pdf，Steven M. Illinois大学

【硬核书】规划算法 (Planning Algorithm)，1023页pdf，Steven M. Illinois大学

专知

11+阅读 · 2022年4月10日

【综述】交通流量预测，附15页论文下载

【综述】交通流量预测，附15页论文下载

专知

23+阅读 · 2020年4月23日

如何构建行业知识图谱（以医疗行业为例）

如何构建行业知识图谱（以医疗行业为例）

专知

31+阅读 · 2019年11月7日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

【知识图谱】知识图谱怎么与深度学习结合？

【知识图谱】知识图谱怎么与深度学习结合？

产业智能官

160+阅读 · 2018年12月18日

综述AI未来：神经科学启发的类脑计算

综述AI未来：神经科学启发的类脑计算

人工智能学家

11+阅读 · 2018年4月24日

展望：模型驱动的深度学习

展望：模型驱动的深度学习

人工智能学家

12+阅读 · 2018年1月23日

【知识图谱】大规模知识图谱的构建、推理及应用

【知识图谱】大规模知识图谱的构建、推理及应用

产业智能官

38+阅读 · 2017年9月12日

相关论文

PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelligence

Arxiv

0+阅读 · 2月4日

Accurate and Efficient World Modeling with Masked Latent Transformers

Arxiv

0+阅读 · 2月3日

PlanTRansformer: Unified Prediction and Planning with Goal-conditioned Transformer

Arxiv

0+阅读 · 2月3日

Research on World Models Is Not Merely Injecting World Knowledge into Specific Tasks

Arxiv

0+阅读 · 2月2日

An Efficient and Multi-Modal Navigation System with One-Step World Model

Arxiv

0+阅读 · 1月18日

Beyond Task and Motion Planning: Hierarchical Robot Planning with General-Purpose Skills

Arxiv

1+阅读 · 1月17日

Goal Force: Teaching Video Models To Accomplish Physics-Conditioned Goals

Arxiv

0+阅读 · 1月9日

What Drives Success in Physical Planning with Joint-Embedding Predictive World Models?

Arxiv

0+阅读 · 1月8日

Physics-Driven Data Generation for Contact-Rich Manipulation via Trajectory Optimization

Arxiv

0+阅读 · 1月7日

Hybrid Motion Planning with Deep Reinforcement Learning for Mobile Robot Navigation

Arxiv

0+阅读 · 2025年12月31日

相关基金

基于复杂耦合时间线的深空探测器自主任务规划方法研究

国家自然科学基金

3+阅读 · 2017年12月31日

支持智能终端通信的物联网管控机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

状态空间搜索的anytime模式及其高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于低维连续表示的启发式智能规划技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

大规模轨迹数据的地理空间关联解译及分析挖掘研究

国家自然科学基金

1+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

信息物理系统动力学演化融合机制与行为建模研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员