Maximum entropy reinforcement learning motivates agents to explore states and actions to maximize the entropy of some distribution, typically by providing additional intrinsic rewards proportional to that entropy function. In this paper, we study intrinsic rewards proportional to the entropy of the discounted distribution of state-action features visited during future time steps. This approach is motivated by two results. First, we show that the expected sum of these intrinsic rewards is a lower bound on the entropy of the discounted distribution of state-action features visited in trajectories starting from the initial states, which we relate to an alternative maximum entropy objective. Second, we show that the distribution used in the intrinsic reward definition is the fixed point of a contraction operator and can therefore be estimated off-policy. Experiments highlight that the new objective leads to improved visitation of features within individual trajectories, in exchange for slightly reduced visitation of features in expectation over different trajectories, as suggested by the lower bound. It also leads to improved convergence speed for learning exploration-only agents. Control performance remains similar across most methods on the considered benchmarks.


翻译:最大熵强化学习通过提供与熵函数成正比的额外内在奖励,激励智能体探索状态和动作以最大化某种分布的熵。本文研究了一种与未来时间步中访问的状态-动作特征的折扣分布熵成正比的内在奖励。该方法的动机源于两个结论。首先,我们证明这些内在奖励的期望和是从初始状态出发的轨迹中访问的状态-动作特征折扣分布熵的下界,该下界与一种替代的最大熵目标相关。其次,我们证明内在奖励定义中使用的分布是某个压缩算子的不动点,因此可以通过离策略方法进行估计。实验表明,新目标在略微降低不同轨迹间特征期望访问量的代价下(如下界所示),提升了单条轨迹内特征的访问效果。同时,该目标还加快了学习探索型智能体的收敛速度。在所考虑的基准测试中,大多数方法的控制性能保持相似。

0
下载
关闭预览

相关内容

Nature:大脑中的多时间尺度强化学习
专知会员服务
18+阅读 · 2025年6月8日
《有动机的智能体》MIT2023最新47页论文
专知会员服务
44+阅读 · 2023年6月11日
基于内在动机的深度强化学习探索方法综述
专知会员服务
40+阅读 · 2023年5月13日
【NeurIPS2022】基于最大熵编码的自监督学习
专知会员服务
27+阅读 · 2022年10月23日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
机器学习各种熵:从入门到全面掌握
AI研习社
10+阅读 · 2018年3月22日
从香农熵到手推KL散度:一文带你纵览机器学习中的信息论
算法与数学之美
10+阅读 · 2018年1月14日
【直观详解】信息熵、交叉熵和相对熵
机器学习研究会
10+阅读 · 2017年11月7日
最大熵原理(一)
深度学习探索
12+阅读 · 2017年8月3日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
俄罗斯无人机战线实验
专知会员服务
5+阅读 · 今天3:29
高阶网络的表示:基于图的框架综述
专知会员服务
8+阅读 · 5月14日
《作战资源再分配的作战行动数学模型构建》
专知会员服务
14+阅读 · 5月14日
世界动作模型: 具身AI的下一个前沿
专知会员服务
15+阅读 · 5月13日
全球十大防空反导系统:列表、射程与用途
专知会员服务
16+阅读 · 5月13日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员