Real-world reinforcement learning often faces environment drift, but most existing methods rely on static entropy coefficients/target entropy, causing over-exploration during stable periods and under-exploration after drift (thus slow recovery), and leaving unanswered the principled question of how exploration intensity should scale with drift magnitude. We prove that entropy scheduling under non-stationarity can be reduced to a one-dimensional, round-by-round trade-off, faster tracking of the optimal solution after drift vs. avoiding gratuitous randomness when the environment is stable, so exploration strength can be driven by measurable online drift signals. Building on this, we propose AES (Adaptive Entropy Scheduling), which adaptively adjusts the entropy coefficient/temperature online using observable drift proxies during training, requiring almost no structural changes and incurring minimal overhead. Across 4 algorithm variants, 12 tasks, and 4 drift modes, AES significantly reduces the fraction of performance degradation caused by drift and accelerates recovery after abrupt changes.


翻译:现实世界中的强化学习常面临环境漂移问题,但现有方法大多依赖静态熵系数/目标熵,导致稳定期过度探索、漂移后探索不足(进而恢复缓慢),且未能从原理上回答探索强度应如何随漂移幅度调整的问题。我们证明非平稳性下的熵调度可简化为一种逐轮进行的一维权衡:在环境漂移后快速追踪最优解,与在环境稳定时避免无谓随机性之间的平衡,从而使探索强度可由可测量的在线漂移信号驱动。基于此,我们提出AES(自适应熵调度)方法,该方法在训练过程中利用可观测的漂移代理指标自适应地在线调整熵系数/温度参数,几乎无需改动算法结构且计算开销极小。在4种算法变体、12项任务和4种漂移模式的实验中,AES显著降低了由漂移引起的性能退化比例,并加速了突变后的恢复过程。

0
下载
关闭预览

相关内容

【ICML2025】时序分布漂移下的自适应估计与学习
专知会员服务
12+阅读 · 2025年5月25日
【斯坦福博士论文】非平稳环境中的深度强化学习算法
专知会员服务
32+阅读 · 2024年12月9日
《用于水下目标定位的平台便携式强化学习方法》
专知会员服务
27+阅读 · 2024年1月2日
专知会员服务
15+阅读 · 2021年9月25日
【清华大学龙明盛副教授】迁移学习理论与算法,59页ppt
专知会员服务
84+阅读 · 2020年11月27日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
18+阅读 · 2020年9月1日
Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证
深度强化学习实验室
19+阅读 · 2020年8月11日
基于逆强化学习的示教学习方法综述
计算机研究与发展
16+阅读 · 2019年2月25日
迁移学习在深度学习中的应用
专知
24+阅读 · 2017年12月24日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员