Two-time-scale stochastic approximation (SA) is an algorithm with coupled iterations which has found broad applications in reinforcement learning, optimization and game control. In this work, we derive mean squared error bounds for non-linear two-time-scale iterations with contractive mappings. In the setting where both stepsizes are order $Θ(1/k)$, commonly referred to as single time-scale SA with multiple coupled sequences, we obtain the first $O(1/k)$ rate without imposing additional smoothness assumptions. In the setting with true time-scale separation, the previous best bound was $O(1/k^{2/3})$. We improve this to $O(1/k^a)$ for any $a<1$ approaching the optimal $O(1/k)$ rate. The key step in our analysis involves rewriting the original iteration in terms of an averaged noise sequence whose variance decays sufficiently fast. Additionally, we use an induction-based approach to show that the iterates are bounded in expectation. Our results apply to Polyak averaging, as well as to algorithms from reinforcement learning, and optimization, including gradient descent-ascent and two-time-scale Lagrangian optimization.


翻译:双时间尺度随机逼近(SA)是一种具有耦合迭代的算法,在强化学习、优化和博弈控制中有着广泛的应用。在本工作中,我们推导了具有压缩映射的非线性双时间尺度迭代的均方误差界。在两种步长均为$Θ(1/k)$量级的设置下(通常被称为具有多个耦合序列的单时间尺度SA),我们在不施加额外光滑性假设的情况下,首次获得了$O(1/k)$的收敛速率。在具有真正时间尺度分离的设置中,先前的最佳界为$O(1/k^{2/3})$。我们将其改进为对任意$a<1$的$O(1/k^a)$,从而逼近最优的$O(1/k)$速率。我们分析的关键步骤在于将原始迭代用其方差衰减足够快的平均噪声序列来重写。此外,我们采用了一种基于归纳法的方法来证明迭代序列在期望意义下是有界的。我们的结果适用于Polyak平均,也适用于来自强化学习、优化的算法,包括梯度下降-上升法和双时间尺度拉格朗日优化。

0
下载
关闭预览

相关内容

【干货书】基于R的非线性时间序列分析,510页pdf
专知会员服务
47+阅读 · 2023年6月12日
【Google-BryanLim等】可解释深度学习时序预测
专知会员服务
64+阅读 · 2021年12月19日
R语言时间序列分析
R语言中文社区
12+阅读 · 2018年11月19日
基于 Keras 用 LSTM 网络做时间序列预测
R语言中文社区
21+阅读 · 2018年8月6日
基于 Keras 用深度学习预测时间序列
R语言中文社区
23+阅读 · 2018年7月27日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月17日
VIP会员
最新内容
人工智能在战场行动中的演进及伊朗案例
专知会员服务
4+阅读 · 4月18日
美AI公司Anthropic推出网络安全模型“Mythos”
专知会员服务
2+阅读 · 4月18日
【博士论文】面向城市环境的可解释计算机视觉
大语言模型的自改进机制:技术综述与未来展望
《第四代军事特种作战部队选拔与评估》
专知会员服务
1+阅读 · 4月18日
相关VIP内容
【干货书】基于R的非线性时间序列分析,510页pdf
专知会员服务
47+阅读 · 2023年6月12日
【Google-BryanLim等】可解释深度学习时序预测
专知会员服务
64+阅读 · 2021年12月19日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员