The target network update frequency (TUF) is a central stabilization mechanism in (deep) Q-learning. However, their selection remains poorly understood and is often treated merely as another tunable hyperparameter rather than as a principled design decision. This work provides a theoretical analysis of target fixing in tabular Q-learning through the lens of approximate dynamic programming. We formulate periodic target updates as a nested optimization scheme in which each outer iteration applies an inexact Bellman optimality operator, approximated by a generic inner loop optimizer. Rigorous theory yields a finite-time convergence analysis for the asynchronous sampling setting, specializing to stochastic gradient descent in the inner loop. Our results deliver an explicit characterization of the bias-variance trade-off induced by the target update period, showing how to optimally set this critical hyperparameter. We prove that constant target update schedules are suboptimal, incurring a logarithmic overhead in sample complexity that is entirely avoidable with adaptive schedules. Our analysis shows that the optimal target update frequency increases geometrically over the course of the learning process.


翻译:目标网络更新频率(TUF)是(深度)Q学习中的核心稳定机制。然而,其选择原则至今仍缺乏深入理解,通常仅被视为另一个可调超参数,而非基于原理的设计决策。本文通过近似动态规划的视角,对表格型Q学习中的目标固定机制进行了理论分析。我们将周期性目标更新建模为一种嵌套优化方案,其中每个外层迭代应用一个不精确的贝尔曼最优算子,该算子由通用的内层循环优化器近似。严格的理论推导为异步采样场景提供了有限时间收敛性分析,并特别针对内层循环采用随机梯度下降的情况进行了专门化。我们的研究结果明确刻画了目标更新周期引起的偏差-方差权衡,揭示了如何最优设置这一关键超参数。我们证明了恒定目标更新方案是次优的,会导致样本复杂度的对数级开销,而这种开销完全可以通过自适应调度方案避免。分析表明,最优目标更新频率在学习过程中呈几何级数增长。

0
下载
关闭预览

相关内容

《数据链目标数据对空对空导弹性能的影响》
专知会员服务
76+阅读 · 2023年11月9日
基于深度学习的视频目标检测综述
专知会员服务
84+阅读 · 2021年5月19日
专知会员服务
17+阅读 · 2020年12月4日
强化学习开篇:Q-Learning原理详解
AINLP
37+阅读 · 2020年7月28日
从锚点到关键点,最新的目标检测方法发展趋势
计算机视觉life
17+阅读 · 2019年8月20日
Seq2seq强化,Pointer Network简介
机器学习算法与Python学习
15+阅读 · 2018年12月8日
入门 | 通过 Q-learning 深入理解强化学习
机器之心
12+阅读 · 2018年4月17日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
入门 | 从Q学习到DDPG,一文简述多种强化学习算法
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月3日
Arxiv
0+阅读 · 1月23日
VIP会员
相关VIP内容
《数据链目标数据对空对空导弹性能的影响》
专知会员服务
76+阅读 · 2023年11月9日
基于深度学习的视频目标检测综述
专知会员服务
84+阅读 · 2021年5月19日
专知会员服务
17+阅读 · 2020年12月4日
相关资讯
强化学习开篇:Q-Learning原理详解
AINLP
37+阅读 · 2020年7月28日
从锚点到关键点,最新的目标检测方法发展趋势
计算机视觉life
17+阅读 · 2019年8月20日
Seq2seq强化,Pointer Network简介
机器学习算法与Python学习
15+阅读 · 2018年12月8日
入门 | 通过 Q-learning 深入理解强化学习
机器之心
12+阅读 · 2018年4月17日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
入门 | 从Q学习到DDPG,一文简述多种强化学习算法
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员