Maximum-Entropy Exploration with Future State-Action Visitation Measures - 专知论文

会员服务 ·

0

Maximum-Entropy Exploration with Future State-Action Visitation Measures

翻译：最大熵探索：基于未来状态-动作访问测度

Adrien Bolland,Gaspard Lambrechts,Damien Ernst

from arxiv, arXiv admin note: substantial text overlap with arXiv:2412.06655

Maximum entropy reinforcement learning motivates agents to explore states and actions to maximize the entropy of some distribution, typically by providing additional intrinsic rewards proportional to that entropy function. In this paper, we study intrinsic rewards proportional to the entropy of the discounted distribution of state-action features visited during future time steps. This approach is motivated by two results. First, we show that the expected sum of these intrinsic rewards is a lower bound on the entropy of the discounted distribution of state-action features visited in trajectories starting from the initial states, which we relate to an alternative maximum entropy objective. Second, we show that the distribution used in the intrinsic reward definition is the fixed point of a contraction operator and can therefore be estimated off-policy. Experiments highlight that the new objective leads to improved visitation of features within individual trajectories, in exchange for slightly reduced visitation of features in expectation over different trajectories, as suggested by the lower bound. It also leads to improved convergence speed for learning exploration-only agents. Control performance remains similar across most methods on the considered benchmarks.

翻译：最大熵强化学习通过提供与熵函数成正比的额外内在奖励，激励智能体探索状态和动作以最大化某种分布的熵。本文研究了一种与未来时间步中访问的状态-动作特征的折扣分布熵成正比的内在奖励。该方法的动机源于两个结论。首先，我们证明这些内在奖励的期望和是从初始状态出发的轨迹中访问的状态-动作特征折扣分布熵的下界，该下界与一种替代的最大熵目标相关。其次，我们证明内在奖励定义中使用的分布是某个压缩算子的不动点，因此可以通过离策略方法进行估计。实验表明，新目标在略微降低不同轨迹间特征期望访问量的代价下（如下界所示），提升了单条轨迹内特征的访问效果。同时，该目标还加快了学习探索型智能体的收敛速度。在所考虑的基准测试中，大多数方法的控制性能保持相似。

0

相关内容

美陆军研究报告《基于熵引导的深度神经网络加速收敛与性能提升方法》最新26页

美陆军研究报告《基于熵引导的深度神经网络加速收敛与性能提升方法》最新26页

专知会员服务

16+阅读 · 2025年7月3日

Nature：大脑中的多时间尺度强化学习

Nature：大脑中的多时间尺度强化学习

专知会员服务

18+阅读 · 2025年6月8日

《有动机的智能体》MIT2023最新47页论文

《有动机的智能体》MIT2023最新47页论文

专知会员服务

44+阅读 · 2023年6月11日

基于内在动机的深度强化学习探索方法综述

基于内在动机的深度强化学习探索方法综述

专知会员服务

40+阅读 · 2023年5月13日

【NeurIPS2022】基于最大熵编码的自监督学习

【NeurIPS2022】基于最大熵编码的自监督学习

专知会员服务

27+阅读 · 2022年10月23日

【博士论文】机器学习中的熵最优传输:在分布回归、重心估计和概率匹配中的应用，209页pdf

【博士论文】机器学习中的熵最优传输:在分布回归、重心估计和概率匹配中的应用，209页pdf

专知会员服务

37+阅读 · 2022年5月23日

【AI+商业投资】法国兴业银行《深度强化学习在投资组合分配中的应用》26页PPT，Deep Reinforcement Learning for portfolio allocation

【AI+商业投资】法国兴业银行《深度强化学习在投资组合分配中的应用》26页PPT，Deep Reinforcement Learning for portfolio allocation

专知会员服务

24+阅读 · 2022年4月1日

当SVM碰上对比学习？霍普金斯/MIT学者在AAAI2022提出《最大化间隔对比学习》选择更好的负样例提升对比性能

当SVM碰上对比学习？霍普金斯/MIT学者在AAAI2022提出《最大化间隔对比学习》选择更好的负样例提升对比性能

专知会员服务

48+阅读 · 2021年12月22日

二值分类熵界分析—国科大UCAS胡包钢教授《信息论与机器学习》课程第五讲

二值分类熵界分析—国科大UCAS胡包钢教授《信息论与机器学习》课程第五讲

专知会员服务

54+阅读 · 2020年3月16日

熵与其它信息量估计—国科大UCAS胡包钢教授《信息论与机器学习》课程第四讲

熵与其它信息量估计—国科大UCAS胡包钢教授《信息论与机器学习》课程第四讲

专知会员服务

54+阅读 · 2020年3月9日

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

专知

11+阅读 · 2021年4月23日

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

熵与其它信息量估计—国科大UCAS胡包钢教授《信息论与机器学习》课程第四讲

熵与其它信息量估计—国科大UCAS胡包钢教授《信息论与机器学习》课程第四讲

专知

10+阅读 · 2020年3月9日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

新智元

20+阅读 · 2019年7月11日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

机器学习各种熵：从入门到全面掌握

机器学习各种熵：从入门到全面掌握

AI研习社

10+阅读 · 2018年3月22日

从香农熵到手推KL散度：一文带你纵览机器学习中的信息论

从香农熵到手推KL散度：一文带你纵览机器学习中的信息论

算法与数学之美

10+阅读 · 2018年1月14日

【直观详解】信息熵、交叉熵和相对熵

【直观详解】信息熵、交叉熵和相对熵

机器学习研究会

10+阅读 · 2017年11月7日

最大熵原理（一）

最大熵原理（一）

深度学习探索

12+阅读 · 2017年8月3日

基于量子随机行走智能处理的理论和方法

国家自然科学基金

0+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

精神分裂症的多尺度动态功能连接研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于最大相关熵准则的支持向量机模型与算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向大数据跨媒体检索的多模态哈希学习方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

极限学习机拓展研究及其在近红外光谱分析中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

基于形态改变的多体空间系统动力学建模、运动规划与最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

随机动力系统中熵结构与热力学形式的研究

国家自然科学基金

0+阅读 · 2014年12月31日

生物膜间的熵力及其性质研究

国家自然科学基金

0+阅读 · 2014年12月31日

Global Optimality for Constrained Exploration via Penalty Regularization

Arxiv

0+阅读 · 4月30日

Rethinking Entropy Interventions in RLVR: An Entropy Change Perspective

Arxiv

0+阅读 · 4月28日

From Physics to Statistics: A Simple Route to Exponential Families via Maximum Entropy

Arxiv

0+阅读 · 4月24日

Beyond Noisy-TVs: Noise-Robust Exploration Via Learning Progress Monitoring

Arxiv

0+阅读 · 4月3日

Maximum Entropy Behavior Exploration for Sim2Real Zero-Shot Reinforcement Learning

Arxiv

0+阅读 · 3月26日

Rethinking the Role of Entropy in Optimizing Tool-Use Behaviors for Large Language Model Agents

Arxiv

0+阅读 · 3月24日

Maximum Entropy Least Squares Solutions of Overdetermined Linear Systems

Arxiv

0+阅读 · 3月15日

NaviGait: Navigating Dynamically Feasible Gait Libraries using Deep Reinforcement Learning

Arxiv

0+阅读 · 3月10日

ZeroSiam: An Efficient Asymmetry for Test-Time Entropy Optimization without Collapse

Arxiv

0+阅读 · 3月10日

A Review of Reward Functions for Reinforcement Learning in the context of Autonomous Driving

Arxiv

0+阅读 · 3月4日

VIP会员

文章信息

相关主题

最新内容

美国边境监控技术演变：无人机与人工智能系统（2001-2025年）（中文版下载，1.3万字）

美国边境监控技术演变：无人机与人工智能系统（2001-2025年）（中文版下载，1.3万字）

专知会员服务

5+阅读 · 今天6:24

技术突袭：俄乌战争中新型精确打击武器的战术与效应（中文版下载，2万字）

技术突袭：俄乌战争中新型精确打击武器的战术与效应（中文版下载，2万字）

专知会员服务

5+阅读 · 今天4:57

《基于生成式通信模型的分布式智能体学习》127页

《基于生成式通信模型的分布式智能体学习》127页

专知会员服务

6+阅读 · 今天3:38

《应对无人机威胁：欧洲反无人机系统》最新报告

《应对无人机威胁：欧洲反无人机系统》最新报告

专知会员服务

5+阅读 · 今天3:35

俄罗斯无人机战线实验

俄罗斯无人机战线实验

专知会员服务

5+阅读 · 今天3:29

高阶网络的表示：基于图的框架综述

高阶网络的表示：基于图的框架综述

专知会员服务

8+阅读 · 5月14日

【ICML2026】面向长上下文大语言模型的训练-推理一致性分段执行

【ICML2026】面向长上下文大语言模型的训练-推理一致性分段执行

专知会员服务

4+阅读 · 5月14日

俄乌冲突中的高超音速武器系统及效能评估（中文版PDF下载）

俄乌冲突中的高超音速武器系统及效能评估（中文版PDF下载）

专知会员服务

20+阅读 · 5月14日

《战略冲突的数学建模：基于变分不等式、不动点理论、间隙函数与微分博弈的美以伊冲突分析》

《战略冲突的数学建模：基于变分不等式、不动点理论、间隙函数与微分博弈的美以伊冲突分析》

专知会员服务

12+阅读 · 5月14日

《人工智能中的多智能体自主决策》380页博士论文

《人工智能中的多智能体自主决策》380页博士论文

专知会员服务

16+阅读 · 5月14日

《作战资源再分配的作战行动数学模型构建》

《作战资源再分配的作战行动数学模型构建》

专知会员服务

14+阅读 · 5月14日

乌克兰作为杀伤网实验室：情报监视侦察（ISR）网络赋能自适应无人机战争——经验分析

乌克兰作为杀伤网实验室：情报监视侦察（ISR）网络赋能自适应无人机战争——经验分析

专知会员服务

10+阅读 · 5月14日

【博士论文】面向可扩展且可信智能系统的强化学习

【博士论文】面向可扩展且可信智能系统的强化学习

专知会员服务

8+阅读 · 5月13日

世界动作模型: 具身AI的下一个前沿

世界动作模型: 具身AI的下一个前沿

专知会员服务

15+阅读 · 5月13日

全球十大防空反导系统：列表、射程与用途

全球十大防空反导系统：列表、射程与用途

专知会员服务

16+阅读 · 5月13日

相关VIP内容

美陆军研究报告《基于熵引导的深度神经网络加速收敛与性能提升方法》最新26页

美陆军研究报告《基于熵引导的深度神经网络加速收敛与性能提升方法》最新26页

专知会员服务

16+阅读 · 2025年7月3日

Nature：大脑中的多时间尺度强化学习

Nature：大脑中的多时间尺度强化学习

专知会员服务

18+阅读 · 2025年6月8日

《有动机的智能体》MIT2023最新47页论文

《有动机的智能体》MIT2023最新47页论文

专知会员服务

44+阅读 · 2023年6月11日

基于内在动机的深度强化学习探索方法综述

基于内在动机的深度强化学习探索方法综述

专知会员服务

40+阅读 · 2023年5月13日

【NeurIPS2022】基于最大熵编码的自监督学习

【NeurIPS2022】基于最大熵编码的自监督学习

专知会员服务

27+阅读 · 2022年10月23日

【博士论文】机器学习中的熵最优传输:在分布回归、重心估计和概率匹配中的应用，209页pdf

【博士论文】机器学习中的熵最优传输:在分布回归、重心估计和概率匹配中的应用，209页pdf

专知会员服务

37+阅读 · 2022年5月23日

【AI+商业投资】法国兴业银行《深度强化学习在投资组合分配中的应用》26页PPT，Deep Reinforcement Learning for portfolio allocation

【AI+商业投资】法国兴业银行《深度强化学习在投资组合分配中的应用》26页PPT，Deep Reinforcement Learning for portfolio allocation

专知会员服务

24+阅读 · 2022年4月1日

当SVM碰上对比学习？霍普金斯/MIT学者在AAAI2022提出《最大化间隔对比学习》选择更好的负样例提升对比性能

当SVM碰上对比学习？霍普金斯/MIT学者在AAAI2022提出《最大化间隔对比学习》选择更好的负样例提升对比性能

专知会员服务

48+阅读 · 2021年12月22日

二值分类熵界分析—国科大UCAS胡包钢教授《信息论与机器学习》课程第五讲

二值分类熵界分析—国科大UCAS胡包钢教授《信息论与机器学习》课程第五讲

专知会员服务

54+阅读 · 2020年3月16日

熵与其它信息量估计—国科大UCAS胡包钢教授《信息论与机器学习》课程第四讲

熵与其它信息量估计—国科大UCAS胡包钢教授《信息论与机器学习》课程第四讲

专知会员服务

54+阅读 · 2020年3月9日

热门VIP内容

开通专知VIP会员享更多权益服务

技术突袭：俄乌战争中新型精确打击武器的战术与效应（中文版下载，2万字）

《应对无人机威胁：欧洲反无人机系统》最新报告

美国边境监控技术演变：无人机与人工智能系统（2001-2025年）（中文版下载，1.3万字）

《基于生成式通信模型的分布式智能体学习》127页

相关资讯

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

专知

11+阅读 · 2021年4月23日

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

熵与其它信息量估计—国科大UCAS胡包钢教授《信息论与机器学习》课程第四讲

熵与其它信息量估计—国科大UCAS胡包钢教授《信息论与机器学习》课程第四讲

专知

10+阅读 · 2020年3月9日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

新智元

20+阅读 · 2019年7月11日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

机器学习各种熵：从入门到全面掌握

机器学习各种熵：从入门到全面掌握

AI研习社

10+阅读 · 2018年3月22日

从香农熵到手推KL散度：一文带你纵览机器学习中的信息论

从香农熵到手推KL散度：一文带你纵览机器学习中的信息论

算法与数学之美

10+阅读 · 2018年1月14日

【直观详解】信息熵、交叉熵和相对熵

【直观详解】信息熵、交叉熵和相对熵

机器学习研究会

10+阅读 · 2017年11月7日

最大熵原理（一）

最大熵原理（一）

深度学习探索

12+阅读 · 2017年8月3日

相关论文

Global Optimality for Constrained Exploration via Penalty Regularization

Arxiv

0+阅读 · 4月30日

Rethinking Entropy Interventions in RLVR: An Entropy Change Perspective

Arxiv

0+阅读 · 4月28日

From Physics to Statistics: A Simple Route to Exponential Families via Maximum Entropy

Arxiv

0+阅读 · 4月24日

Beyond Noisy-TVs: Noise-Robust Exploration Via Learning Progress Monitoring

Arxiv

0+阅读 · 4月3日

Maximum Entropy Behavior Exploration for Sim2Real Zero-Shot Reinforcement Learning

Arxiv

0+阅读 · 3月26日

Rethinking the Role of Entropy in Optimizing Tool-Use Behaviors for Large Language Model Agents

Arxiv

0+阅读 · 3月24日

Maximum Entropy Least Squares Solutions of Overdetermined Linear Systems

Arxiv

0+阅读 · 3月15日

NaviGait: Navigating Dynamically Feasible Gait Libraries using Deep Reinforcement Learning

Arxiv

0+阅读 · 3月10日

ZeroSiam: An Efficient Asymmetry for Test-Time Entropy Optimization without Collapse

Arxiv

0+阅读 · 3月10日

A Review of Reward Functions for Reinforcement Learning in the context of Autonomous Driving

Arxiv

0+阅读 · 3月4日

相关基金

基于量子随机行走智能处理的理论和方法

国家自然科学基金

0+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

精神分裂症的多尺度动态功能连接研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于最大相关熵准则的支持向量机模型与算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向大数据跨媒体检索的多模态哈希学习方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

极限学习机拓展研究及其在近红外光谱分析中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

基于形态改变的多体空间系统动力学建模、运动规划与最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

随机动力系统中熵结构与热力学形式的研究

国家自然科学基金

0+阅读 · 2014年12月31日

生物膜间的熵力及其性质研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员