World Action Models (WAMs) offer a promising approach to embodied intelligence, yet existing methods rely heavily on video prediction as action priors and lack adaptive multimodal reasoning, limiting their effectiveness on long-horizon, complex tasks. We observe that WAMs require different multimodal reasoning modes under different execution contexts: textual reasoning is essential during task transitions to guide high-level action prediction, while visual reasoning is critical during fine-grained manipulation for precise control. Motivated by this observation, we propose \textbf{AdaWAM}, a world action model with adaptive multimodal reasoning abilities. AdaWAM integrates a lightweight dynamic router that autonomously triggers textual or visual reasoning as needed during task execution. Experiments on both simulated and real-world embodied tasks show that AdaWAM substantially improves inference efficiency while outperforming state-of-the-art embodied policies. Codes and demos are available at: https://adawam.github.io/.


翻译:世界动作模型为具身智能提供了一条有前景的路径,但现有方法过度依赖视频预测作为动作先验,且缺乏自适应多模态推理能力,这限制了其在长时域、复杂任务上的有效性。我们观察到,在任务执行的不同情境下,世界动作模型需要不同的多模态推理模式:在任务转换阶段,文本推理对于引导高层动作预测至关重要;而在精细操作阶段,视觉推理对于精确控制尤为关键。受此观察启发,我们提出了**AdaWAM**——一种具有自适应多模态推理能力的世界动作模型。AdaWAM集成了一个轻量级的动态路由器,可根据任务执行需求自动触发文本或视觉推理。在仿真和真实世界的具身任务实验中,AdaWAM显著提升了推理效率,同时超越了最先进的具身策略。代码与演示视频目前可在 https://adawam.github.io/ 获取。

0
下载
关闭预览

相关内容

世界动作模型: 具身AI的下一个前沿
专知会员服务
22+阅读 · 5月13日
具身智能中的世界模型:全面综述
专知会员服务
52+阅读 · 2025年10月21日
走向通用人工智能之路,世界模型为何不可或缺?
专知会员服务
19+阅读 · 2025年7月1日
【MIT博士论文】通过神经物理构建世界模型
专知会员服务
36+阅读 · 2025年4月3日
理解世界还是预测未来?世界模型的综合综述
专知会员服务
78+阅读 · 2024年11月26日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
27+阅读 · 2019年9月9日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
世界动作模型: 具身AI的下一个前沿
专知会员服务
22+阅读 · 5月13日
具身智能中的世界模型:全面综述
专知会员服务
52+阅读 · 2025年10月21日
走向通用人工智能之路,世界模型为何不可或缺?
专知会员服务
19+阅读 · 2025年7月1日
【MIT博士论文】通过神经物理构建世界模型
专知会员服务
36+阅读 · 2025年4月3日
理解世界还是预测未来?世界模型的综合综述
专知会员服务
78+阅读 · 2024年11月26日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员