Recent work in hierarchical reinforcement learning has shown success in scaling to billions of timesteps when learning over a set of predefined option reward functions. We show that, instead of using a single reward function per option, the reward functions can be effectively used to induce a space of behaviours, by letting the controller specify linear combinations over reward functions, allowing a more expressive set of policies to be represented. We call this method Hierarchical Behaviour Spaces (HBS). We evaluate HBS on the NetHack Learning Environment, demonstrating strong performance. We conduct a series of experiments and determine that, perhaps going against conventional wisdom, the benefits of hierarchy in our method come from increased exploration rather than long term reasoning.


翻译:近期分层强化学习领域的研究表明,在基于预定义选项奖励函数集合进行学习时,该方法可成功扩展至数十亿时间步的规模。我们提出,每个选项无需使用单一奖励函数,而是通过控制器指定奖励函数的线性组合,使奖励函数能有效诱导出行为空间,从而表征更具表达力的策略集合。我们将该方法命名为分层行为空间(Hierarchical Behaviour Spaces, HBS)。在NetHack学习环境中的评估显示,HBS展现了强劲性能。通过一系列实验,我们确定(或许违背传统认知)该方法中层级结构的主要优势源于探索增强,而非长期推理能力的提升。

0
下载
关闭预览

相关内容

分层强化学习在无人机领域应用综述
专知会员服务
54+阅读 · 2024年3月19日
专知会员服务
19+阅读 · 2021年4月3日
专知会员服务
63+阅读 · 2020年3月4日
强化学习的两大话题之一,仍有极大探索空间
AI科技评论
22+阅读 · 2020年8月22日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
深度学习中Attention Mechanism详细介绍:原理、分类及应用
深度学习与NLP
10+阅读 · 2019年2月18日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月22日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
0+阅读 · 14分钟前
综述 | 世界动作模型:少做梦,多行动
专知会员服务
0+阅读 · 16分钟前
美以伊冲突:无人机与人工智能的运用
专知会员服务
1+阅读 · 28分钟前
《特种部队在透明战场中的生存力》最新报告
专知会员服务
1+阅读 · 48分钟前
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员