Latent world models are increasingly used for control and goal-conditioned planning, yet assessing whether their learned representations are useful for planning usually requires slow, planner-coupled simulator evaluation with CEM or similar planners. Such evaluation is black-box and model-complexity-dependent: under the same protocol, different world models may require minutes to hours per checkpoint. In this work, we propose ATM, an Action-Consistency Transfer Matrix for diagnosing whether latent transitions preserve action semantics relevant to planning. ATM compares action information in real encoded transitions and model-predicted transitions through lightweight post-hoc probes, producing an interpretable matrix that reveals representation quality, transition-domain inconsistency, and failure modes without simulator rollout. It can also be collapsed into a simple screening score for within-task ranking across checkpoints, variants, and world models. When the true success gap is non-trivial, ATM achieves highly reliable pairwise ranking, while reducing minutes-to-hours CEM evaluation to seconds-level transition analysis, yielding more than 100x speedup in our setup. We further introduce AITS, showing that action-identifiability is not only diagnostic but also a useful training signal for improving downstream planning without changing the planner.


翻译:隐式世界模型越来越多地被用于控制与目标条件规划,然而评估其学得的表征是否对规划有效,通常需要结合CEM或类似规划器进行缓慢的、与规划器耦合的仿真器评估。这种评估是黑箱且依赖于模型复杂度的:在同一协议下,不同世界模型每个检查点可能需要几分钟到几小时的评估时间。本研究提出ATM,一种用于诊断隐式状态转移是否保留与规划相关的动作语义的动作一致性迁移矩阵。ATM通过轻量级事后探针比较真实编码转移和模型预测转移中的动作信息,生成一个可解释的矩阵,无需仿真器回滚即可揭示表征质量、转移域不一致性以及故障模式。该矩阵还可简化为一个简单的筛选分数,用于跨检查点、变体及世界模型的同任务内排序。当真实成功差距不可忽略时,ATM能实现高度可靠的成对排序,同时将分钟到小时级别的CEM评估降至秒级的转移分析,在我们的设置中实现超过100倍的加速。我们进一步引入AITS,表明动作可辨识性不仅具有诊断价值,还能作为有效的训练信号,在不改变规划器的情况下改进下游规划。

0
下载
关闭预览

相关内容

《图世界模型:概念、分类体系与未来方向》
专知会员服务
21+阅读 · 5月1日
Attention!注意力机制模型最新综述(附下载)
数据派THU
36+阅读 · 2019年4月14日
深度学习目标检测模型全面综述:Faster R-CNN、R-FCN和SSD
深度学习世界
10+阅读 · 2017年9月18日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月11日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
《图世界模型:概念、分类体系与未来方向》
专知会员服务
21+阅读 · 5月1日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员