World models in robot learning predict future states from visual observations and actions, enabling agents to reason about the consequences of their controls. However, many action-conditioned models are evaluated in settings where motion is dominated by immediate control, whereas aquatic surface vehicles and other real-world objects continue moving under inertia and are displaced by hidden ambient drift, such as water currents or wind. We propose FlowMo-WM, an end-to-end trainable visual world model that infers object-centric motion state and a predictive long-history context associated with hidden drift from image-action histories without direct supervision of flow fields. FlowMo-WM factorizes image-action history into a short-history latent state, trained to summarize object-centric motion, and a longer-history context, trained to summarize slowly varying exogenous influences. A zero-context residual transition separates action-conditioned base dynamics from context-dependent drift effects during latent rollout. In simulated aquatic surface-vehicle environments with diverse hidden flows, disturbances, and randomized vehicle dynamics, FlowMo-WM improves long-horizon rollout accuracy over representative action-conditioned latent world models. Prediction-time context ablations, in which the inferred context is zeroed or shuffled during rollout, show that the ambient context is important for stable prediction under hidden drift, while frozen linear probes characterize information encoded in the learned factors.


翻译:机器人学习中的世界模型通过视觉观测和动作预测未来状态,使智能体能够推理其控制行为的后果。然而,许多基于动作条件的世界模型在评估场景中,运动主要受即时控制主导,而水面航行器及其他真实世界物体在惯性作用下持续运动,并受到水流或风力等隐藏环境漂移的位移影响。我们提出FlowMo-WM——一种端到端可训练的视觉世界模型,该模型无需流场直接监督,即可从图像-动作历史中推断以物体为中心的运动状态以及与隐藏漂移相关的长历史预测上下文。FlowMo-WM将图像-动作历史分解为:摘要物体中心运动的短历史潜状态,以及摘要缓慢变化外源影响的长历史上下文。在潜状态推演过程中,零上下文残差转移机制将基于动作条件的基础动力学与依赖上下文的漂移效应分离。在具有多样化隐藏流、干扰和随机化航行器动力学的模拟水面航行器环境中,FlowMo-WM在长时域推演精度上优于代表性基于动作条件的潜世界模型。通过在进行推演时对推断上下文进行置零或打乱的预测阶段上下文消融实验表明,环境上下文对于隐藏漂移下的稳定预测至关重要,而冻结线性探针则表征了学习因子中编码的信息。

0
下载
关闭预览

相关内容

世界动作模型: 具身AI的下一个前沿
专知会员服务
22+阅读 · 5月13日
三维与四维世界建模综述
专知会员服务
30+阅读 · 2025年9月12日
走向通用人工智能之路,世界模型为何不可或缺?
专知会员服务
19+阅读 · 2025年7月1日
【ICML2025】通用智能体需要世界模型
专知会员服务
27+阅读 · 2025年6月4日
【MIT博士论文】通过神经物理构建世界模型
专知会员服务
36+阅读 · 2025年4月3日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
基于 Carsim 2016 和 Simulink的无人车运动控制联合仿真(三)
MaskFusion: 多运动目标实时识别、跟踪和重建
计算机视觉life
11+阅读 · 2019年4月20日
【紫冬分享】移动机器人视觉里程计综述
中国科学院自动化研究所
12+阅读 · 2018年10月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
10+阅读 · 6月15日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员