We study off-policy reinforcement learning for controlling continuous-time Markov diffusion processes with discrete-time observations and actions. We consider model-free algorithms with function approximation that learn value and advantage functions directly from data, without unrealistic structural assumptions on the dynamics. Leveraging the ellipticity of the diffusions, we establish a new class of Hilbert-space positive definiteness and boundedness properties for the Bellman operators. Based on these properties, we propose the Sobolev-prox fitted $q$-learning algorithm, which learns value and advantage functions by iteratively solving least-squares regression problems. We derive oracle inequalities for the estimation error, governed by (i) the best approximation error of the function classes, (ii) their localized complexity, (iii) exponentially decaying optimization error, and (iv) numerical discretization error. These results identify ellipticity as a key structural property that renders reinforcement learning with function approximation for Markov diffusions no harder than supervised learning.


翻译:本研究针对具有离散时间观测与动作的连续时间马尔可夫扩散过程,探讨离策略强化学习控制问题。我们考虑采用函数逼近的无模型算法,该算法直接从数据中学习价值函数与优势函数,无需对动态过程施加不切实际的结构性假设。通过利用扩散过程的椭圆性,我们为贝尔曼算子建立了一类新的希尔伯特空间正定性与有界性性质。基于这些性质,我们提出Sobolev-prox拟合$q$学习算法,该算法通过迭代求解最小二乘回归问题来学习价值函数与优势函数。我们推导了估计误差的oracle不等式,其误差界由以下因素决定:(i) 函数类的最佳逼近误差,(ii) 其局部化复杂度,(iii) 指数衰减的优化误差,以及(iv) 数值离散化误差。这些结果表明椭圆性是关键结构性质,它使得马尔可夫扩散过程的函数逼近强化学习问题难度不高于监督学习。

0
下载
关闭预览

相关内容

【NeurIPS2023】强化学习中的概率推理:正确的方法
专知会员服务
28+阅读 · 2023年11月25日
最新《强化学习导论》教程,32页pdf
专知会员服务
58+阅读 · 2023年4月5日
基于模型的强化学习综述
专知会员服务
48+阅读 · 2023年1月9日
《强化学习—使用 Open AI、TensorFlow和Keras实现》174页pdf
专知会员服务
139+阅读 · 2020年3月1日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
强化学习开篇:Q-Learning原理详解
AINLP
37+阅读 · 2020年7月28日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
548页MIT强化学习教程,收藏备用【PDF下载】
机器学习算法与Python学习
17+阅读 · 2018年10月11日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
22+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
VIP会员
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
22+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员