We investigate the statistical properties of Temporal Difference (TD) learning with Polyak-Ruppert averaging, arguably one of the most widely used algorithms in reinforcement learning, for the task of estimating the parameters of the optimal linear approximation to the value function. Assuming independent samples, we make three theoretical contributions that improve upon the current state-of-the-art results: (i) we establish refined high-dimensional Berry-Esseen bounds over the class of convex sets, achieving faster rates than the best known results, and (ii) we propose and analyze a novel, computationally efficient online plug-in estimator of the asymptotic covariance matrix; (iii) we derive sharper high probability convergence guarantees that depend explicitly on the asymptotic variance and hold under weaker conditions than those adopted in the literature. These results enable the construction of confidence regions and simultaneous confidence intervals for the linear parameters of the value function approximation, with guaranteed finite-sample coverage. We demonstrate the applicability of our theoretical findings through numerical experiments.


翻译:本文研究了带Polyak-Ruppert平均的时序差分(TD)学习的统计特性——该算法可视为强化学习领域应用最广泛的算法之一,其任务在于估计值函数最优线性逼近的参数。在独立样本假设下,我们提出了三项改进当前最先进成果的理论贡献:(i)建立了凸集类上的精细化高维Berry-Esseen界,获得了比已知最优结果更快的收敛速率;(ii)提出并分析了一种新颖的、计算高效的渐近协方差矩阵在线插件估计器;(iii)推导出更敏锐的高概率收敛保证,该保证显式依赖于渐近方差,且所需条件弱于文献中采用的条件。这些成果使得为值函数逼近的线性参数构建置信区域与同步置信区间成为可能,并确保有限样本覆盖性。我们通过数值实验验证了理论发现的实际适用性。

0
下载
关闭预览

相关内容

通常,函数逼近问题要求我们从定义明确的类中选择一个函数,该类以特定于任务的方式与目标函数紧密匹配(“近似”)。 在应用数学的许多分支中,特别是在计算机科学中,都出现了函数逼近的需求。 一个人可以区分两类主要的函数逼近问题:首先,对于已知的目标函数,逼近理论是数值分析的分支,它研究如何通过特定的函数类(例如,某些函数)来近似某些已知函数(例如,特殊函数)。 ,多项式或有理函数),这些属性通常具有理想的属性(廉价的计算,连续性,积分和极限值等)。 其次,目标函数g可能是未知的; 而不是显式公式,仅提供(x,g(x))形式的一组点。 取决于g的域和共域的结构,可以采用几种近似g的技术。 例如,如果g是对实数的运算,则可以使用插值,外推,回归分析和曲线拟合的技术。 如果g的共域(范围集或目标集)是一个有限集,那么人们正在处理一个分类问题。 在某种程度上,不同的问题(回归,分类,适应度近似)在统计学习理论中得到了统一的处理,在这些理论中,它们被视为监督学习问题。
【CMU博士论文】强化学习中策略评估的统计推断
专知会员服务
26+阅读 · 2024年9月15日
基于深度元学习的因果推断新方法
图与推荐
12+阅读 · 2020年7月21日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
R语言时间序列分析
R语言中文社区
12+阅读 · 2018年11月19日
时序异常检测算法概览
论智
29+阅读 · 2018年8月30日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
机器学习(4)之线性判别式(附Python源码)
机器学习算法与Python学习
13+阅读 · 2017年7月11日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(简介)
专知会员服务
2+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
5+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
1+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 4月12日
相关VIP内容
【CMU博士论文】强化学习中策略评估的统计推断
专知会员服务
26+阅读 · 2024年9月15日
相关资讯
基于深度元学习的因果推断新方法
图与推荐
12+阅读 · 2020年7月21日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
R语言时间序列分析
R语言中文社区
12+阅读 · 2018年11月19日
时序异常检测算法概览
论智
29+阅读 · 2018年8月30日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
机器学习(4)之线性判别式(附Python源码)
机器学习算法与Python学习
13+阅读 · 2017年7月11日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员