Non-Markovian dynamics are commonly found in real-world environments due to long-range dependencies, partial observability, and memory effects. The Bellman equation that is the central pillar of Reinforcement learning (RL) becomes only approximately valid under Non-Markovian. Existing work often focus on practical algorithm designs and offer limited theoretical treatment to address key questions, such as what dynamics are indeed capturable by the Bellman framework and how to inspire new algorithm classes with optimal approximations. In this paper, we present a novel topological viewpoint on temporal-difference (TD) based RL. We show that TD errors can be viewed as 1-cochain in the topological space of state transitions, while Markov dynamics are then interpreted as topological integrability. This novel view enables us to obtain a Hodge-type decomposition of TD errors into an integrable component and a topological residual, through a Bellman-de Rham projection. We further propose HodgeFlow Policy Search (HFPS) by fitting a potential network to minimize the non-integrable projection residual in RL, achieving stability/sensitivity guarantees. In numerical evaluations, HFPS is shown to significantly improve RL performance under non-Markovian.


翻译:现实世界环境中,由于长程依赖、部分可观测性及记忆效应,非马尔可夫动力学普遍存在。作为强化学习(RL)核心支柱的贝尔曼方程在非马尔可夫环境下仅近似成立。现有研究多聚焦于实用算法设计,对关键问题的理论探讨有限,例如:贝尔曼框架究竟能捕捉何种动力学?如何通过最优近似启发新算法类别?本文提出一种基于时序差分(TD)的强化学习的全新拓扑视角。我们证明,在状态转移的拓扑空间中,TD误差可视为1-上链,而马尔可夫动力学则可诠释为拓扑可积性。这一新颖视角使我们能通过贝尔曼-德拉姆投影,将TD误差分解为可积分量与拓扑残差,得到霍奇型分解。我们进一步提出霍奇流策略搜索(HFPS),通过拟合势网络以最小化强化学习中的不可积投影残差,从而获得稳定性/敏感性保证。数值评估表明,HFPS在非马尔可夫环境下显著提升了强化学习性能。

0
下载
关闭预览

相关内容

面向视觉的强化学习综述
专知会员服务
21+阅读 · 2025年8月12日
《用于水下目标定位的平台便携式强化学习方法》
专知会员服务
27+阅读 · 2024年1月2日
【ICML2023】在受限逆强化学习中的可识别性和泛化能力
专知会员服务
26+阅读 · 2023年6月5日
基于通信的多智能体强化学习进展综述
专知会员服务
112+阅读 · 2022年11月12日
专知会员服务
135+阅读 · 2021年3月13日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
强化学习精品书籍
平均机器
26+阅读 · 2019年1月2日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员