追踪漂移：面向非平稳强化学习的变分感知熵调度方法 (Tracking Drift: Variation-Aware Entropy Scheduling for Non-Stationary Reinforcement Learning) - 专知论文

会员服务 ·

0

调度 · 非平稳 · 变分 · 在线 · 自适应 ·

Tracking Drift: Variation-Aware Entropy Scheduling for Non-Stationary Reinforcement Learning

翻译：追踪漂移：面向非平稳强化学习的变分感知熵调度方法

Tongxi Wang,Zhuoyang Xia,Xinran Chen,Shan Liu

Real-world reinforcement learning often faces environment drift, but most existing methods rely on static entropy coefficients/target entropy, causing over-exploration during stable periods and under-exploration after drift (thus slow recovery), and leaving unanswered the principled question of how exploration intensity should scale with drift magnitude. We prove that entropy scheduling under non-stationarity can be reduced to a one-dimensional, round-by-round trade-off, faster tracking of the optimal solution after drift vs. avoiding gratuitous randomness when the environment is stable, so exploration strength can be driven by measurable online drift signals. Building on this, we propose AES (Adaptive Entropy Scheduling), which adaptively adjusts the entropy coefficient/temperature online using observable drift proxies during training, requiring almost no structural changes and incurring minimal overhead. Across 4 algorithm variants, 12 tasks, and 4 drift modes, AES significantly reduces the fraction of performance degradation caused by drift and accelerates recovery after abrupt changes.

翻译：现实世界中的强化学习常面临环境漂移问题，但现有方法大多依赖静态熵系数/目标熵，导致稳定期过度探索、漂移后探索不足（进而恢复缓慢），且未能从原理上回答探索强度应如何随漂移幅度调整的问题。我们证明非平稳性下的熵调度可简化为一种逐轮进行的一维权衡：在环境漂移后快速追踪最优解，与在环境稳定时避免无谓随机性之间的平衡，从而使探索强度可由可测量的在线漂移信号驱动。基于此，我们提出AES（自适应熵调度）方法，该方法在训练过程中利用可观测的漂移代理指标自适应地在线调整熵系数/温度参数，几乎无需改动算法结构且计算开销极小。在4种算法变体、12项任务和4种漂移模式的实验中，AES显著降低了由漂移引起的性能退化比例，并加速了突变后的恢复过程。

0

相关内容

【ICML2025】时序分布漂移下的自适应估计与学习

【ICML2025】时序分布漂移下的自适应估计与学习

专知会员服务

12+阅读 · 2025年5月25日

【斯坦福博士论文】非平稳环境中的深度强化学习算法

【斯坦福博士论文】非平稳环境中的深度强化学习算法

专知会员服务

32+阅读 · 2024年12月9日

《用于水下目标定位的平台便携式强化学习方法》

《用于水下目标定位的平台便携式强化学习方法》

专知会员服务

27+阅读 · 2024年1月2日

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

专知会员服务

40+阅读 · 2023年3月12日

《通过强化训练改善漂移——惯性传感器》2022最新64页技术报告，美太平洋海军信息战中心

《通过强化训练改善漂移——惯性传感器》2022最新64页技术报告，美太平洋海军信息战中心

专知会员服务

25+阅读 · 2022年11月23日

【ICML2021】连续结构非平稳性中的深度强化学习

专知会员服务

15+阅读 · 2021年9月25日

【ICLR2021】一种基于距离度量学习及行为正则化的完全离线的元强化学习方法

专知会员服务

17+阅读 · 2021年2月9日

【清华大学龙明盛副教授】迁移学习理论与算法，59页ppt

【清华大学龙明盛副教授】迁移学习理论与算法，59页ppt

专知会员服务

84+阅读 · 2020年11月27日

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

专知会员服务

17+阅读 · 2020年7月14日

【ALT 2019 Tutorials】强化学习的探索性开发（Exploration-Exploitation in Reinforcement Learning）

【ALT 2019 Tutorials】强化学习的探索性开发（Exploration-Exploitation in Reinforcement Learning）

专知会员服务

34+阅读 · 2019年3月21日

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

18+阅读 · 2020年9月1日

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

深度强化学习实验室

19+阅读 · 2020年8月11日

中科院发布最新迁移学习综述论文，带你全面了解40种迁移学习方法

中科院发布最新迁移学习综述论文，带你全面了解40种迁移学习方法

专知

48+阅读 · 2019年11月12日

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

机器之心

13+阅读 · 2019年10月17日

基于逆强化学习的示教学习方法综述

基于逆强化学习的示教学习方法综述

计算机研究与发展

16+阅读 · 2019年2月25日

当前最好的非深度迁移学习方法：流形空间下的分布对齐

当前最好的非深度迁移学习方法：流形空间下的分布对齐

PaperWeekly

11+阅读 · 2018年7月31日

资源 | 跟着Sutton经典教材学强化学习中的蒙特卡罗方法（代码实例）

资源 | 跟着Sutton经典教材学强化学习中的蒙特卡罗方法（代码实例）

大数据文摘

11+阅读 · 2018年6月12日

【迁移学习】迁移学习的干货学习资料 | 干货分享 | 技术解读

【迁移学习】迁移学习的干货学习资料 | 干货分享 | 技术解读

产业智能官

15+阅读 · 2018年1月2日

迁移学习在深度学习中的应用

迁移学习在深度学习中的应用

专知

24+阅读 · 2017年12月24日

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

AI100

16+阅读 · 2017年12月23日

未知环境下基于单目视觉的移动平台目标跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

42+阅读 · 2015年12月31日

几类离散与分布型变时滞抛物系统的高精度快速算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

分数阶随机共振行为机制及其自适应控制与强色噪声背景中的微弱信号检测

国家自然科学基金

0+阅读 · 2015年12月31日

视频场景下大位移运动目标的持续性跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动增强现实中基于视觉—惯性传感器的混合跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

11+阅读 · 2008年12月31日

Geometry of Drifting MDPs with Path-Integral Stability Certificates

Arxiv

0+阅读 · 1月29日

Learning under Distributional Drift: Reproducibility as an Intrinsic Statistical Resource

Arxiv

0+阅读 · 1月27日

Evolving Machine Learning in Non-Stationary Environments: A Unified Survey of Drift, Forgetting, and Adaptation

Arxiv

0+阅读 · 1月25日

Variational Dimension Lifting for Robust Tracking of Nonlinear Stochastic Dynamics

Arxiv

0+阅读 · 1月23日

Entropy Production in Machine Learning Under Fokker-Planck Probability Flow

Arxiv

0+阅读 · 1月16日

Entropy Production in Machine Learning Under Fokker-Planck Probability Flow

Arxiv

0+阅读 · 1月15日

SAC Flow: Sample-Efficient Reinforcement Learning of Flow-Based Policies via Velocity-Reparameterized Sequential Modeling

Arxiv

0+阅读 · 1月14日

Reinforcement Learning via Conservative Agent for Environments with Random Delays

Arxiv

0+阅读 · 1月4日

Tessellation Localized Transfer learning for nonparametric regression

Arxiv

0+阅读 · 1月2日

Entropy Production in Machine Learning Under Fokker-Planck Probability Flow

Arxiv

0+阅读 · 1月2日

VIP会员

文章信息

相关主题

相关VIP内容

【ICML2025】时序分布漂移下的自适应估计与学习

【ICML2025】时序分布漂移下的自适应估计与学习

专知会员服务

12+阅读 · 2025年5月25日

【斯坦福博士论文】非平稳环境中的深度强化学习算法

【斯坦福博士论文】非平稳环境中的深度强化学习算法

专知会员服务

32+阅读 · 2024年12月9日

《用于水下目标定位的平台便携式强化学习方法》

《用于水下目标定位的平台便携式强化学习方法》

专知会员服务

27+阅读 · 2024年1月2日

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

专知会员服务

40+阅读 · 2023年3月12日

《通过强化训练改善漂移——惯性传感器》2022最新64页技术报告，美太平洋海军信息战中心

《通过强化训练改善漂移——惯性传感器》2022最新64页技术报告，美太平洋海军信息战中心

专知会员服务

25+阅读 · 2022年11月23日

【ICML2021】连续结构非平稳性中的深度强化学习

专知会员服务

15+阅读 · 2021年9月25日

【ICLR2021】一种基于距离度量学习及行为正则化的完全离线的元强化学习方法

专知会员服务

17+阅读 · 2021年2月9日

【清华大学龙明盛副教授】迁移学习理论与算法，59页ppt

【清华大学龙明盛副教授】迁移学习理论与算法，59页ppt

专知会员服务

84+阅读 · 2020年11月27日

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

专知会员服务

17+阅读 · 2020年7月14日

【ALT 2019 Tutorials】强化学习的探索性开发（Exploration-Exploitation in Reinforcement Learning）

【ALT 2019 Tutorials】强化学习的探索性开发（Exploration-Exploitation in Reinforcement Learning）

专知会员服务

34+阅读 · 2019年3月21日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基于自适应表征的高效视觉建模

《多域作战中融合网络、电子战与动能机动》

AI智能体时代大模型安全风险与攻防新挑战

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

相关资讯

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

18+阅读 · 2020年9月1日

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

深度强化学习实验室

19+阅读 · 2020年8月11日

中科院发布最新迁移学习综述论文，带你全面了解40种迁移学习方法

中科院发布最新迁移学习综述论文，带你全面了解40种迁移学习方法

专知

48+阅读 · 2019年11月12日

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

机器之心

13+阅读 · 2019年10月17日

基于逆强化学习的示教学习方法综述

基于逆强化学习的示教学习方法综述

计算机研究与发展

16+阅读 · 2019年2月25日

当前最好的非深度迁移学习方法：流形空间下的分布对齐

当前最好的非深度迁移学习方法：流形空间下的分布对齐

PaperWeekly

11+阅读 · 2018年7月31日

资源 | 跟着Sutton经典教材学强化学习中的蒙特卡罗方法（代码实例）

资源 | 跟着Sutton经典教材学强化学习中的蒙特卡罗方法（代码实例）

大数据文摘

11+阅读 · 2018年6月12日

【迁移学习】迁移学习的干货学习资料 | 干货分享 | 技术解读

【迁移学习】迁移学习的干货学习资料 | 干货分享 | 技术解读

产业智能官

15+阅读 · 2018年1月2日

迁移学习在深度学习中的应用

迁移学习在深度学习中的应用

专知

24+阅读 · 2017年12月24日

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

AI100

16+阅读 · 2017年12月23日

相关论文

Geometry of Drifting MDPs with Path-Integral Stability Certificates

Arxiv

0+阅读 · 1月29日

Learning under Distributional Drift: Reproducibility as an Intrinsic Statistical Resource

Arxiv

0+阅读 · 1月27日

Evolving Machine Learning in Non-Stationary Environments: A Unified Survey of Drift, Forgetting, and Adaptation

Arxiv

0+阅读 · 1月25日

Variational Dimension Lifting for Robust Tracking of Nonlinear Stochastic Dynamics

Arxiv

0+阅读 · 1月23日

Entropy Production in Machine Learning Under Fokker-Planck Probability Flow

Arxiv

0+阅读 · 1月16日

Entropy Production in Machine Learning Under Fokker-Planck Probability Flow

Arxiv

0+阅读 · 1月15日

SAC Flow: Sample-Efficient Reinforcement Learning of Flow-Based Policies via Velocity-Reparameterized Sequential Modeling

Arxiv

0+阅读 · 1月14日

Reinforcement Learning via Conservative Agent for Environments with Random Delays

Arxiv

0+阅读 · 1月4日

Tessellation Localized Transfer learning for nonparametric regression

Arxiv

0+阅读 · 1月2日

Entropy Production in Machine Learning Under Fokker-Planck Probability Flow

Arxiv

0+阅读 · 1月2日

相关基金

未知环境下基于单目视觉的移动平台目标跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

42+阅读 · 2015年12月31日

几类离散与分布型变时滞抛物系统的高精度快速算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

分数阶随机共振行为机制及其自适应控制与强色噪声背景中的微弱信号检测

国家自然科学基金

0+阅读 · 2015年12月31日

视频场景下大位移运动目标的持续性跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动增强现实中基于视觉—惯性传感器的混合跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

11+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员