漂移马尔可夫决策过程的几何学与路径积分稳定性证明 (Geometry of Drifting MDPs with Path-Integral Stability Certificates) - 专知论文

会员服务 ·

0

路径 · 非平稳 · 振荡 · 马尔可夫决策过程 · 最优 ·

Geometry of Drifting MDPs with Path-Integral Stability Certificates

翻译：漂移马尔可夫决策过程的几何学与路径积分稳定性证明

Zuyuan Zhang,Mahdi Imani,Tian Lan

Real-world reinforcement learning is often \emph{nonstationary}: rewards and dynamics drift, accelerate, oscillate, and trigger abrupt switches in the optimal action. Existing theory often represents nonstationarity with coarse-scale models that measure \emph{how much} the environment changes, not \emph{how} it changes locally -- even though acceleration and near-ties drive tracking error and policy chattering. We take a geometric view of nonstationary discounted Markov Decision Processes (MDPs) by modeling the environment as a differentiable homotopy path and tracking the induced motion of the optimal Bellman fixed point. This yields a length-curvature-kink signature of intrinsic complexity: cumulative drift, acceleration/oscillation, and action-gap-induced nonsmoothness. We prove a solver-agnostic path-integral stability bound and derive gap-safe feasible regions that certify local stability away from switch regimes. Building on these results, we introduce \textit{Homotopy-Tracking RL (HT-RL)} and \textit{HT-MCTS}, lightweight wrappers that estimate replay-based proxies of length, curvature, and near-tie proximity online and adapt learning or planning intensity accordingly. Experiments show improved tracking and dynamic regret over matched static baselines, with the largest gains in oscillatory and switch-prone regimes.

翻译：现实世界中的强化学习通常是**非平稳的**：奖励与动态特性会发生漂移、加速、振荡，并触发最优动作的突然切换。现有理论常使用粗粒度模型来表示非平稳性，这些模型衡量环境**变化了多少**，而非其局部**如何变化**——尽管加速度与接近平局的状态正是导致跟踪误差与策略抖振的关键因素。本文从几何视角研究非平稳折扣马尔可夫决策过程（MDPs），将环境建模为可微同伦路径，并跟踪由此引发的最优贝尔曼不动点的运动轨迹。该方法导出了一个表征内在复杂性的长度-曲率-转折点特征：累积漂移、加速度/振荡以及由动作间隙诱导的非光滑性。我们证明了一个与求解器无关的路径积分稳定性界，并推导出间隙安全的可行区域，该区域能证明远离切换机制时的局部稳定性。基于这些结果，我们提出了**同伦跟踪强化学习（HT-RL）**与**HT-MCTS**——两种轻量级封装器，可在线估计基于经验回放的长度、曲率及接近平局程度的代理指标，并据此自适应调整学习或规划强度。实验表明，相较于匹配的静态基线方法，所提方法在跟踪性能与动态遗憾上均有提升，且在振荡性与易切换机制中改善最为显著。

0

相关内容

【伯克利博士论文】衔接示范与决策：可证明的模仿学习理论与算法

【伯克利博士论文】衔接示范与决策：可证明的模仿学习理论与算法

专知会员服务

12+阅读 · 2025年9月4日

【斯坦福博士论文】非平稳环境中的深度强化学习算法

【斯坦福博士论文】非平稳环境中的深度强化学习算法

专知会员服务

32+阅读 · 2024年12月9日

马毅乔丹联合指导，Yaodong Yu伯克利博士论文《可靠表示学习：理论与实践》

马毅乔丹联合指导，Yaodong Yu伯克利博士论文《可靠表示学习：理论与实践》

专知会员服务

43+阅读 · 2024年5月11日

【CMU博士论文】稳定模型与时序差分学习, 97页pdf

【CMU博士论文】稳定模型与时序差分学习, 97页pdf

专知会员服务

31+阅读 · 2023年8月25日

【CMU博士论文】稳定模型与时间差分学习，97页pdf

【CMU博士论文】稳定模型与时间差分学习，97页pdf

专知会员服务

24+阅读 · 2023年6月17日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知会员服务

250+阅读 · 2022年11月15日

非凸优化问题综述“从对称性到几何性”，罗切斯特大学等

非凸优化问题综述“从对称性到几何性”，罗切斯特大学等

专知会员服务

29+阅读 · 2022年7月17日

不确定性下如何决策？弗吉尼亚理工最新《不确定性推理与量化的决策研究综述》，51页pdf阐述信念理论与深度学习结合下的不确定性决策

不确定性下如何决策？弗吉尼亚理工最新《不确定性推理与量化的决策研究综述》，51页pdf阐述信念理论与深度学习结合下的不确定性决策

专知会员服务

108+阅读 · 2022年6月17日

【罗切斯特Yuqian Zhang等书】从对称到几何:可处理的非凸问题，34页pdf，From Symmetry to Geometry: Tractable Nonconvex Problems

【罗切斯特Yuqian Zhang等书】从对称到几何:可处理的非凸问题，34页pdf，From Symmetry to Geometry: Tractable Nonconvex Problems

专知会员服务

20+阅读 · 2022年3月4日

最新《模仿学习 - Imitation Learning》教程，63页ppt，微软Kamil Ciosek

最新《模仿学习 - Imitation Learning》教程，63页ppt，微软Kamil Ciosek

专知会员服务

66+阅读 · 2020年8月22日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

47+阅读 · 2022年11月16日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

32+阅读 · 2022年10月17日

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

专知

17+阅读 · 2021年1月18日

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

深度强化学习实验室

19+阅读 · 2020年8月11日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

迁移自适应学习最新综述，附21页论文下载

迁移自适应学习最新综述，附21页论文下载

专知

34+阅读 · 2019年3月13日

【论文推荐】最新十篇度量学习相关论文—可量化表示、非线性度量学习、在线深度量学习、大间隔最近邻、判别深度度量、域自适应

【论文推荐】最新十篇度量学习相关论文—可量化表示、非线性度量学习、在线深度量学习、大间隔最近邻、判别深度度量、域自适应

专知

12+阅读 · 2018年5月18日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

非线性双曲型随机偏微分方程及其相关研究

国家自然科学基金

0+阅读 · 2015年12月31日

分数阶时滞随机微分方程中的随机共振现象与行为研究

国家自然科学基金

0+阅读 · 2015年12月31日

非线性分析方法与奇异摄动理论在力学中的若干应用

国家自然科学基金

0+阅读 · 2015年12月31日

一类不确定非线性大系统的非光滑分散控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

超线性增长条件下的混杂型随机时滞微分方程

国家自然科学基金

0+阅读 · 2014年12月31日

周期与随机激励下非线性振子动力学行为及识别研究

国家自然科学基金

0+阅读 · 2014年12月31日

随机时滞微分方程解的矩稳定性和有界性

国家自然科学基金

0+阅读 · 2014年12月31日

考虑不确定性和方向性的结构随机极值和疲劳风致响应及抗风可靠性评价理论

国家自然科学基金

0+阅读 · 2014年12月31日

几类高阶非线性行波方程的精确解,分支和复杂动力学研究

国家自然科学基金

0+阅读 · 2014年12月31日

分数阶偏微分方程与近场动力学等非局部模型的高保真快速算法与数值分析

国家自然科学基金

1+阅读 · 2014年12月31日

Toward Learning POMDPs Beyond Full-Rank Actions and State Observability

Arxiv

0+阅读 · 2月3日

Dynamic Programming for Epistemic Uncertainty in Markov Decision Processes

Arxiv

0+阅读 · 2月3日

Learning Markov Decision Processes under Fully Bandit Feedback

Arxiv

0+阅读 · 2月2日

Stabilizing the Q-Gradient Field for Policy Smoothness in Actor-Critic

Arxiv

0+阅读 · 1月30日

Tracking Drift: Variation-Aware Entropy Scheduling for Non-Stationary Reinforcement Learning

Arxiv

0+阅读 · 1月27日

On the Provable Suboptimality of Momentum SGD in Nonstationary Stochastic Optimization

Arxiv

0+阅读 · 1月21日

On the Provable Suboptimality of Momentum SGD in Nonstationary Stochastic Optimization

Arxiv

0+阅读 · 1月18日

Online Markov Decision Processes with Terminal Law Constraints

Arxiv

0+阅读 · 1月12日

Revisiting Weighted Strategy for Non-stationary Parametric Bandits and MDPs

Arxiv

0+阅读 · 1月3日

On Good-for-MDPs Automata

Arxiv

0+阅读 · 2025年12月28日

VIP会员

文章信息

相关主题

马尔可夫决策过程

相关VIP内容

【伯克利博士论文】衔接示范与决策：可证明的模仿学习理论与算法

【伯克利博士论文】衔接示范与决策：可证明的模仿学习理论与算法

专知会员服务

12+阅读 · 2025年9月4日

【斯坦福博士论文】非平稳环境中的深度强化学习算法

【斯坦福博士论文】非平稳环境中的深度强化学习算法

专知会员服务

32+阅读 · 2024年12月9日

马毅乔丹联合指导，Yaodong Yu伯克利博士论文《可靠表示学习：理论与实践》

马毅乔丹联合指导，Yaodong Yu伯克利博士论文《可靠表示学习：理论与实践》

专知会员服务

43+阅读 · 2024年5月11日

【CMU博士论文】稳定模型与时序差分学习, 97页pdf

【CMU博士论文】稳定模型与时序差分学习, 97页pdf

专知会员服务

31+阅读 · 2023年8月25日

【CMU博士论文】稳定模型与时间差分学习，97页pdf

【CMU博士论文】稳定模型与时间差分学习，97页pdf

专知会员服务

24+阅读 · 2023年6月17日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知会员服务

250+阅读 · 2022年11月15日

非凸优化问题综述“从对称性到几何性”，罗切斯特大学等

非凸优化问题综述“从对称性到几何性”，罗切斯特大学等

专知会员服务

29+阅读 · 2022年7月17日

不确定性下如何决策？弗吉尼亚理工最新《不确定性推理与量化的决策研究综述》，51页pdf阐述信念理论与深度学习结合下的不确定性决策

不确定性下如何决策？弗吉尼亚理工最新《不确定性推理与量化的决策研究综述》，51页pdf阐述信念理论与深度学习结合下的不确定性决策

专知会员服务

108+阅读 · 2022年6月17日

【罗切斯特Yuqian Zhang等书】从对称到几何:可处理的非凸问题，34页pdf，From Symmetry to Geometry: Tractable Nonconvex Problems

【罗切斯特Yuqian Zhang等书】从对称到几何:可处理的非凸问题，34页pdf，From Symmetry to Geometry: Tractable Nonconvex Problems

专知会员服务

20+阅读 · 2022年3月4日

最新《模仿学习 - Imitation Learning》教程，63页ppt，微软Kamil Ciosek

最新《模仿学习 - Imitation Learning》教程，63页ppt，微软Kamil Ciosek

专知会员服务

66+阅读 · 2020年8月22日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基于自适应表征的高效视觉建模

《多域作战中融合网络、电子战与动能机动》

AI智能体时代大模型安全风险与攻防新挑战

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

相关资讯

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

47+阅读 · 2022年11月16日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

32+阅读 · 2022年10月17日

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

专知

17+阅读 · 2021年1月18日

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

深度强化学习实验室

19+阅读 · 2020年8月11日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

迁移自适应学习最新综述，附21页论文下载

迁移自适应学习最新综述，附21页论文下载

专知

34+阅读 · 2019年3月13日

【论文推荐】最新十篇度量学习相关论文—可量化表示、非线性度量学习、在线深度量学习、大间隔最近邻、判别深度度量、域自适应

【论文推荐】最新十篇度量学习相关论文—可量化表示、非线性度量学习、在线深度量学习、大间隔最近邻、判别深度度量、域自适应

专知

12+阅读 · 2018年5月18日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

相关论文

Toward Learning POMDPs Beyond Full-Rank Actions and State Observability

Arxiv

0+阅读 · 2月3日

Dynamic Programming for Epistemic Uncertainty in Markov Decision Processes

Arxiv

0+阅读 · 2月3日

Learning Markov Decision Processes under Fully Bandit Feedback

Arxiv

0+阅读 · 2月2日

Stabilizing the Q-Gradient Field for Policy Smoothness in Actor-Critic

Arxiv

0+阅读 · 1月30日

Tracking Drift: Variation-Aware Entropy Scheduling for Non-Stationary Reinforcement Learning

Arxiv

0+阅读 · 1月27日

On the Provable Suboptimality of Momentum SGD in Nonstationary Stochastic Optimization

Arxiv

0+阅读 · 1月21日

On the Provable Suboptimality of Momentum SGD in Nonstationary Stochastic Optimization

Arxiv

0+阅读 · 1月18日

Online Markov Decision Processes with Terminal Law Constraints

Arxiv

0+阅读 · 1月12日

Revisiting Weighted Strategy for Non-stationary Parametric Bandits and MDPs

Arxiv

0+阅读 · 1月3日

On Good-for-MDPs Automata

Arxiv

0+阅读 · 2025年12月28日

相关基金

非线性双曲型随机偏微分方程及其相关研究

国家自然科学基金

0+阅读 · 2015年12月31日

分数阶时滞随机微分方程中的随机共振现象与行为研究

国家自然科学基金

0+阅读 · 2015年12月31日

非线性分析方法与奇异摄动理论在力学中的若干应用

国家自然科学基金

0+阅读 · 2015年12月31日

一类不确定非线性大系统的非光滑分散控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

超线性增长条件下的混杂型随机时滞微分方程

国家自然科学基金

0+阅读 · 2014年12月31日

周期与随机激励下非线性振子动力学行为及识别研究

国家自然科学基金

0+阅读 · 2014年12月31日

随机时滞微分方程解的矩稳定性和有界性

国家自然科学基金

0+阅读 · 2014年12月31日

考虑不确定性和方向性的结构随机极值和疲劳风致响应及抗风可靠性评价理论

国家自然科学基金

0+阅读 · 2014年12月31日

几类高阶非线性行波方程的精确解,分支和复杂动力学研究

国家自然科学基金

0+阅读 · 2014年12月31日

分数阶偏微分方程与近场动力学等非局部模型的高保真快速算法与数值分析

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员