We study reward-free and reward-agnostic exploration in episodic finite-horizon Markov decision processes (MDPs), where an agent explores an unknown environment without observing external rewards. Reward-free exploration aims to enable $ε$-optimal policies for any reward revealed after exploration, while reward-agnostic exploration targets $ε$-optimality for rewards drawn from a small finite class. In the reward-agnostic setting, Li, Yan, Chen, and Fan achieve minimax sample complexity, but only for restrictively small accuracy parameter $ε$. We propose a new algorithm that significantly relaxes the requirement on $ε$. Our approach is novel and of technical interest by itself. Our algorithm employs an online learning procedure with carefully designed rewards to construct an exploration policy, which is used to gather data sufficient for accurate dynamics estimation and subsequent computation of an $ε$-optimal policy once the reward is revealed. Finally, we establish a tight lower bound for reward-free exploration, closing the gap between known upper and lower bounds.


翻译:我们研究在有限时段马尔可夫决策过程(MDPs)中的无奖励与奖励未知探索问题,其中智能体在未观测外部奖励的情况下探索未知环境。无奖励探索旨在为探索后揭示的任何奖励实现$ε$最优策略,而奖励未知探索则针对从小规模有限类中抽取的奖励实现$ε$最优性。在奖励未知设定中,Li、Yan、Chen和Fan实现了极小极大样本复杂度,但仅适用于限制性极小的精度参数$ε$。我们提出了一种新算法,显著放宽了对$ε$的要求。我们的方法本身具有新颖性和技术价值。该算法采用在线学习过程,通过精心设计的奖励构建探索策略,用于收集足以进行精确动态估计的数据,并在奖励揭示后计算$ε$最优策略。最后,我们建立了无奖励探索的紧致下界,从而填补了已知上下界之间的空白。

0
下载
关闭预览

相关内容

深度强化学习中的奖励模型:综述
专知会员服务
29+阅读 · 2025年6月20日
改进型深度确定性策略梯度的无人机路径规划
专知会员服务
14+阅读 · 2025年5月1日
「强化学习可解释性」最新2022综述
专知
12+阅读 · 2022年1月16日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
18+阅读 · 2020年9月1日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
强化学习的两大话题之一,仍有极大探索空间
AI科技评论
22+阅读 · 2020年8月22日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员