World models aim to capture the states and dynamics of an environment in a compact latent space. Moreover, using Boolean state representations is particularly useful for search heuristics and symbolic reasoning and planning. Existing approaches keep latents informative via decoder-based reconstruction, or instead via contrastive or reward signals. In this work, we introduce Discrete World Models via Regularization (DWMR): a reconstruction-free and contrastive-free method for unsupervised Boolean world-model learning. In particular, we introduce a novel world-modeling loss that couples latent prediction with specialized regularizers. Such regularizers maximize the entropy and independence of the representation bits through variance, correlation, and coskewness penalties, while simultaneously enforcing a locality prior for sparse action changes. To enable effective optimization, we also introduce a novel training scheme improving robustness to discrete roll-outs. Experiments on two benchmarks with underlying combinatorial structure show that DWMR learns more accurate representations and transitions than reconstruction-based alternatives. Finally, DWMR can also be paired with an auxiliary reconstruction decoder, and this combination yields additional gains.


翻译:世界模型旨在将环境的状态与动态特性捕捉到一个紧凑的潜在空间中。此外,使用布尔状态表示对于搜索启发式、符号推理与规划尤为有用。现有方法通过基于解码器的重构,或通过对比或奖励信号来保持潜在信息的丰富性。在本工作中,我们提出了基于正则化的离散世界模型:一种无需重构且无需对比的无监督布尔世界模型学习方法。具体而言,我们引入了一种新颖的世界建模损失函数,该函数将潜在预测与专门设计的正则化器相结合。这些正则化器通过方差、相关性和共偏度惩罚来最大化表示比特的熵与独立性,同时施加稀疏动作变化的局部性先验。为了实现有效优化,我们还引入了一种新颖的训练方案,以提升对离散展开过程的鲁棒性。在两个具有底层组合结构的基准测试上的实验表明,DWMR 学习到的表示与状态转移比基于重构的替代方法更为准确。最后,DWMR 也可与辅助的重构解码器结合使用,这种组合能带来额外的性能提升。

0
下载
关闭预览

相关内容

在数学,统计学和计算机科学中,尤其是在机器学习和逆问题中,正则化是添加信息以解决不适定问题或防止过度拟合的过程。 正则化适用于不适定的优化问题中的目标函数。
《图世界模型:概念、分类体系与未来方向》
专知会员服务
0+阅读 · 今天14:38
144页ppt《扩散模型》,Google DeepMind Sander Dieleman
专知会员服务
51+阅读 · 2025年11月21日
走向通用人工智能之路,世界模型为何不可或缺?
专知会员服务
19+阅读 · 2025年7月1日
从二维到三维认知:通用世界模型简要综述
专知会员服务
30+阅读 · 2025年6月26日
【MIT博士论文】通过神经物理构建世界模型
专知会员服务
36+阅读 · 2025年4月3日
理解世界还是预测未来?世界模型的综合综述
专知会员服务
78+阅读 · 2024年11月26日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【干货书】计算机科学离散数学,627页pdf
专知
65+阅读 · 2020年8月31日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
多模态深度学习综述,18页pdf
专知
51+阅读 · 2020年3月29日
【学界】虚拟对抗训练:一种新颖的半监督学习正则化方法
GAN生成式对抗网络
10+阅读 · 2019年6月9日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月26日
VIP会员
最新内容
《图世界模型:概念、分类体系与未来方向》
专知会员服务
0+阅读 · 今天14:38
Palantir AIP平台:连接智能体与决策
专知会员服务
7+阅读 · 今天1:22
《美海军软件测试战略》90页slides
专知会员服务
7+阅读 · 今天1:00
面向具身智能与机器人仿真的三维生成:综述
专知会员服务
8+阅读 · 4月30日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员