We introduce COMET (Causal Object-centric Model for Efficient Tree search), a model-based reinforcement learning algorithm that performs Monte Carlo Tree Search in a slot-structured latent space. COMET pairs a frozen unsupervised object-centric encoder with a transformer-based world model, in which actions are bound to objects through a novel action-slot fusion mechanism that is used in slot transition prediction. Policy and value heads use object-causal attention, modulating token interactions by learned per-slot relevance scores so that decision-making concentrates on task-relevant entities. COMET adds an explicit object-level inductive bias to MuZero-style latent planning. Across eight visually and dynamically diverse tasks from the Object-Centric Visual RL benchmark, ManiSkill, Robosuite, and VizDoom, COMET achieves a higher mean normalized score during the early stages of training compared to object-centric and monolithic baselines.


翻译:我们提出COMET(因果目标中心高效树搜索模型),一种在槽结构潜空间执行蒙特卡洛树搜索的基于模型的强化学习算法。COMET将冻结的无监督目标中心编码器与基于变换器的世界模型配对,通过新颖的动作-槽融合机制将动作绑定到目标上,该机制用于槽转移预测。策略与价值网络采用目标因果注意力机制,通过学习的每槽相关性分数调节令牌交互,使决策聚焦于任务相关实体。COMET为类MuZero的潜在规划范式引入显式目标层级归纳偏置。在来自目标中心视觉强化学习基准、ManiSkill、Robosuite和VizDoom的八个视觉与动态多样性任务中,相比目标中心基线方法与整体基线方法,COMET在训练早期阶段取得更高平均归一化得分。

0
下载
关闭预览

相关内容

互联网
因果强化学习的统一框架:综述、分类体系、算法与应用
专知会员服务
35+阅读 · 2025年12月24日
【MIT博士论文】加速科学发现的因果建模实践算法
专知会员服务
26+阅读 · 2025年12月22日
专知会员服务
98+阅读 · 2021年8月28日
专知会员服务
60+阅读 · 2021年4月7日
因果关联学习,Causal Relational Learning
专知会员服务
185+阅读 · 2020年4月21日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
基于深度元学习的因果推断新方法
图与推荐
12+阅读 · 2020年7月21日
因果推理学习算法资源大列表
专知
27+阅读 · 2019年3月3日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
综述:深度学习时代的目标检测算法
极市平台
27+阅读 · 2018年3月17日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
Arxiv
0+阅读 · 6月12日
Arxiv
0+阅读 · 6月2日
Arxiv
0+阅读 · 4月2日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
8+阅读 · 6月15日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员