World models are widely explored in embodied intelligence, yet they typically predict distinct evolutions of the world and the ego within a single stream, where the world captures persistent instruction-agnostic scene regularities and the ego captures robot-centric instruction-conditioned dynamics. This world-ego entanglement leads to a degradation in long-horizon embodied scenarios, particularly in hybrid tasks with interleaved navigation and manipulation behaviors. In this paper, we introduce \emph{World-Ego Modeling}, a new conceptual paradigm that decomposes future evolution into world and ego components. We define the world-ego boundary from three perspectives, i.e., motion-, semantic-, and intention-based views, and analyze three disentanglement strategies with post-, pre-, and full disentanglement. Further, we instantiate this paradigm as the World-Ego Model (WEM), a unified embodied world model that couples an implicit separate world-ego planner with a cascade-parallel mixture-of-experts (CP-MoE) diffusion generator. To enable rigorous evaluation, we further construct HTEWorld, the first benchmark for long-horizon world modeling with hybrid navigation-manipulation tasks, providing 125K video clips (over 4.5M frames) with fine-grained action annotations and 300 multi-turn evaluation trajectories (over 2K instructions). Extensive experiments show that WEM achieves state-of-the-art performance on HTEWorld while remaining competitive on existing manipulation-only benchmarks.


翻译:世界模型在具身智能领域被广泛探索,但现有方法通常在同一数据流中预测世界与自我的不同演化——其中世界捕捉与指令无关的持久场景规律,自我则捕捉以机器人为中心、受指令驱动的动态信息。这种世界-自我纠缠会导致长周期具身场景性能退化,尤其在交织导航与操控行为的混合任务中。本文提出世界-自我建模这一新概念范式,将未来演化分解为世界分量与自我分量。我们从运动、语义和意图三个视角定义世界-自我的边界,并分析后解耦、前解耦与全解耦三种策略。进一步将该范式实例化为世界-自我模型(WEM)——一种统一具身世界模型,通过隐式分离的世界-自我规划器与级联并行专家混合(CP-MoE)扩散生成器实现耦合。为进行严格评估,我们构建了首个面向导航-操控混合任务的长周期世界建模基准HTEWorld,包含12.5万个视频片段(超过450万帧)及其细粒度动作标注,以及300条多轮评估轨迹(包含2000余条指令)。大量实验表明,WEM在HTEWorld上达到最优性能,同时在现有纯操控基准上保持竞争力。

0
下载
关闭预览

相关内容

ACM/IEEE第23届模型驱动工程语言和系统国际会议,是模型驱动软件和系统工程的首要会议系列,由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来,模型涵盖了建模的各个方面,从语言和方法到工具和应用程序。模特的参加者来自不同的背景,包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛,参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会,并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。 官网链接:http://www.modelsconference.org/
世界动作模型: 具身AI的下一个前沿
专知会员服务
22+阅读 · 5月13日
《图世界模型:概念、分类体系与未来方向》
专知会员服务
21+阅读 · 5月1日
智能体化世界建模:基础、能力、规律及展望
专知会员服务
23+阅读 · 4月28日
具身智能中的心理世界建模:深度综述
专知会员服务
39+阅读 · 1月10日
具身智能中的世界模型:全面综述
专知会员服务
52+阅读 · 2025年10月21日
具身智能体:世界建模
专知会员服务
42+阅读 · 2025年7月8日
自动驾驶的世界模型综述
专知会员服务
47+阅读 · 2025年1月22日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
迁移自适应学习最新综述,附21页论文下载
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
0+阅读 · 6月11日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关VIP内容
世界动作模型: 具身AI的下一个前沿
专知会员服务
22+阅读 · 5月13日
《图世界模型:概念、分类体系与未来方向》
专知会员服务
21+阅读 · 5月1日
智能体化世界建模:基础、能力、规律及展望
专知会员服务
23+阅读 · 4月28日
具身智能中的心理世界建模:深度综述
专知会员服务
39+阅读 · 1月10日
具身智能中的世界模型:全面综述
专知会员服务
52+阅读 · 2025年10月21日
具身智能体:世界建模
专知会员服务
42+阅读 · 2025年7月8日
自动驾驶的世界模型综述
专知会员服务
47+阅读 · 2025年1月22日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员