We present the convergence rates of synchronous and asynchronous Q-learning for average-reward Markov decision processes, where the absence of contraction poses a fundamental challenge. Existing non-asymptotic results overcome this challenge by either imposing strong assumptions to enforce seminorm contraction or relying on discounted or episodic Markov decision processes as successive approximations, which either require unknown parameters or result in suboptimal sample complexity. In this work, under a reachability assumption, we establish optimal $\widetilde{O}(\varepsilon^{-2})$ sample complexity guarantees (up to logarithmic factors) for a simple variant of synchronous and asynchronous Q-learning that samples from the lazified dynamics, where the system remains in the current state with some fixed probability. At the core of our analysis is the construction of an instance-dependent seminorm and showing that, after a lazy transformation of the Markov decision process, the Bellman operator becomes one-step contractive under this seminorm.


翻译:本文研究了同步与异步Q学习在平均奖励马尔可夫决策过程中的收敛速率,其中收缩性的缺失构成了根本性挑战。现有的非渐近结果通过两种方式克服这一挑战:一是施加强假设以强制半范数收缩,二是依赖折扣或片段式马尔可夫决策过程作为逐次逼近,但这要么需要未知参数,要么导致次优的样本复杂度。在本工作中,在可达性假设下,我们为同步与异步Q学习的一个简单变体建立了最优的$\widetilde{O}(\varepsilon^{-2})$样本复杂度保证(忽略对数因子),该变体从惰性化动态中采样,即系统以固定概率保持在当前状态。我们分析的核心在于构造一个与实例相关的半范数,并证明在对马尔可夫决策过程进行惰性变换后,贝尔曼算子在此半范数下具有一步收缩性。

0
下载
关闭预览

相关内容

【NeurIPS2025】熵正则化与分布强化学习的收敛定理
专知会员服务
12+阅读 · 2025年10月12日
【博士论文】强化学习智能体的奖励函数设计
专知会员服务
48+阅读 · 2025年4月8日
【NeurIPS2023】强化学习中的概率推理:正确的方法
专知会员服务
28+阅读 · 2023年11月25日
【ICML2023】在受限逆强化学习中的可识别性和泛化能力
专知会员服务
26+阅读 · 2023年6月5日
专知会员服务
17+阅读 · 2020年12月4日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
18+阅读 · 2020年9月1日
强化学习开篇:Q-Learning原理详解
AINLP
37+阅读 · 2020年7月28日
基于深度元学习的因果推断新方法
图与推荐
12+阅读 · 2020年7月21日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月3日
VIP会员
相关VIP内容
【NeurIPS2025】熵正则化与分布强化学习的收敛定理
专知会员服务
12+阅读 · 2025年10月12日
【博士论文】强化学习智能体的奖励函数设计
专知会员服务
48+阅读 · 2025年4月8日
【NeurIPS2023】强化学习中的概率推理:正确的方法
专知会员服务
28+阅读 · 2023年11月25日
【ICML2023】在受限逆强化学习中的可识别性和泛化能力
专知会员服务
26+阅读 · 2023年6月5日
专知会员服务
17+阅读 · 2020年12月4日
相关基金
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员