Learning compact state representations in Markov Decision Processes (MDPs) has proven crucial for addressing the curse of dimensionality in large-scale reinforcement learning (RL) problems. Existing principled approaches leverage structural priors on the MDP by constructing state representations as linear combinations of the state-graph Laplacian eigenvectors. When the transition graph is unknown or the state space is prohibitively large, the graph spectral features can be estimated directly via sample trajectories. In this work, we prove an upper bound on the approximation error of linear value function approximation under the learned spectral features. We show how this error scales with the algebraic connectivity of the state-graph, grounding the approximation quality in the topological structure of the MDP. We further bound the error introduced by the eigenvector estimation itself, leading to an end-to-end error decomposition across the representation learning pipeline. Additionally, our expression of the Laplacian operator for the RL setting, although equivalent to existing ones, prevents some common misunderstandings, of which we show some examples from the literature. Our results hold for general (non-uniform) policies without any assumptions on the symmetry of the induced transition kernel. We validate our theoretical findings with numerical simulations on gridworld environments.


翻译:在马尔可夫决策过程(MDPs)中学习紧凑的状态表示,已被证明对于解决大规模强化学习(RL)问题中的维度灾难至关重要。现有的原理性方法通过将状态表示构建为状态图拉普拉斯特征向量的线性组合,来利用MDP的结构先验。当转移图未知或状态空间过大时,图谱特征可以通过采样轨迹直接估计。在本工作中,我们证明了在学习的谱特征下线性值函数逼近的近似误差上界。我们展示了该误差如何随状态图的代数连通性缩放,从而将逼近质量锚定在MDP的拓扑结构中。我们进一步界定了特征向量估计本身引入的误差,从而实现了对整个表示学习流程的端到端误差分解。此外,我们针对RL场景提出的拉普拉斯算子表达式,虽然与现有表达式等价,但避免了一些常见的误解,我们展示了文献中的若干示例。我们的结果适用于一般(非均匀)策略,且无需对诱导转移核的对称性作任何假设。我们在网格世界环境中通过数值模拟验证了理论发现。

0
下载
关闭预览

相关内容

《可解释深度强化学习综述》
专知会员服务
40+阅读 · 2025年2月12日
深度强化学习中的可塑性损失:综述
专知会员服务
22+阅读 · 2024年11月8日
【2024新书】强化学习中利用环境可配置性,377页pdf
专知会员服务
54+阅读 · 2024年2月19日
【NeurIPS2023】强化学习中的概率推理:正确的方法
专知会员服务
28+阅读 · 2023年11月25日
基于模型的强化学习综述
专知会员服务
48+阅读 · 2023年1月9日
【简明书】强化学习的基础,111页pdf
专知会员服务
96+阅读 · 2022年11月16日
【普林斯顿-Mengdi Wang】强化学习统计复杂度,35页ppt
专知会员服务
21+阅读 · 2020年11月15日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
「强化学习可解释性」最新2022综述
专知
12+阅读 · 2022年1月16日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
OpenAI官方发布:强化学习中的关键论文
专知
14+阅读 · 2018年12月12日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
548页MIT强化学习教程,收藏备用【PDF下载】
机器学习算法与Python学习
17+阅读 · 2018年10月11日
关于强化学习(附代码,练习和解答)
深度学习
38+阅读 · 2018年1月30日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
VIP会员
最新内容
超越网格:作战环境对炮兵的影响
专知会员服务
1+阅读 · 今天15:35
KDD 2026 | MixRAGRec:面向LLM推荐的混合专家KG-RAG框架
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
4+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
14+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
8+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
相关VIP内容
《可解释深度强化学习综述》
专知会员服务
40+阅读 · 2025年2月12日
深度强化学习中的可塑性损失:综述
专知会员服务
22+阅读 · 2024年11月8日
【2024新书】强化学习中利用环境可配置性,377页pdf
专知会员服务
54+阅读 · 2024年2月19日
【NeurIPS2023】强化学习中的概率推理:正确的方法
专知会员服务
28+阅读 · 2023年11月25日
基于模型的强化学习综述
专知会员服务
48+阅读 · 2023年1月9日
【简明书】强化学习的基础,111页pdf
专知会员服务
96+阅读 · 2022年11月16日
【普林斯顿-Mengdi Wang】强化学习统计复杂度,35页ppt
专知会员服务
21+阅读 · 2020年11月15日
相关资讯
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
「强化学习可解释性」最新2022综述
专知
12+阅读 · 2022年1月16日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
OpenAI官方发布:强化学习中的关键论文
专知
14+阅读 · 2018年12月12日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
548页MIT强化学习教程,收藏备用【PDF下载】
机器学习算法与Python学习
17+阅读 · 2018年10月11日
关于强化学习(附代码,练习和解答)
深度学习
38+阅读 · 2018年1月30日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员