We study best-policy identification for finite-horizon risk-sensitive reinforcement learning under the entropic risk measure. Recent work established a constant gap in the exponential horizon dependence between lower and upper bounds on the number of samples required to identify an approximately optimal policy. Precisely, known lower bounds scale in $Ω(e^{|β| H})$ where $H$ is the horizon of the MDP, while the state-of-the-art upper bound achieves at best $O(e^{2|β| H})$ (arXiv:2506.00286v2) using a generative model. We show that this extra exponential factor can be traced to overly loose concentration control for exponential utilities. To close this open gap, we revisit the analysis of this problem through a forward-model based algorithm building on KL-based exploration bonuses that we adapt to the entropic criterion. The improvement we get is due to two main novel technical innovations. We leverage the smoothness properties of the exponential utility to derive sharper concentration bounds, and we propose a new stopping rule that exploits further this tightness to obtain a sample complexity that matches the lower bound.


翻译:我们研究了有限时域风险敏感强化学习在熵风险度量下的最优策略识别问题。近期研究表明,在识别近似最优策略所需样本数量的指数级时域依赖性方面,下界与上界之间存在常数差距。具体而言,已知下界复杂度为 $Ω(e^{|β| H})$(其中 $H$ 为MDP的时域长度),而基于生成模型的最新上界(arXiv:2506.00286v2)至多达到 $O(e^{2|β| H})$。我们证明这一额外的指数因子源于对指数效用函数的过度宽松的集中性控制。为弥合这一开放性问题,我们重新分析了该问题,设计了一种基于前向模型的算法——该算法通过对数KL探索奖赏机制进行改造以适应熵准则。本文的创新性改进源于两项关键技术突破:利用指数效用的光滑性导出更紧的集中不等式,并提出一种能进一步发挥该紧致性优势的新型停时规则,最终使样本复杂度匹配下界。

0
下载
关闭预览

相关内容

【ICML2024】悲观遇上风险:风险敏感的离线强化学习
专知会员服务
25+阅读 · 2024年7月11日
专知会员服务
16+阅读 · 2021年5月21日
【经典书】模式识别概率理论,654页pdf
专知会员服务
88+阅读 · 2021年1月21日
专知会员服务
44+阅读 · 2020年9月25日
强化学习和最优控制的《十个关键点》81页PPT汇总
专知会员服务
108+阅读 · 2020年3月2日
【AAAI2023】用于图对比学习的谱特征增强
专知
20+阅读 · 2022年12月11日
异常检测的阈值,你怎么选?给你整理好了...
机器学习算法与Python学习
10+阅读 · 2018年9月19日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员