Fitted Q-iteration (FQI) and its entropy-regularized variant, soft FQI, are central tools for value-based model-free offline reinforcement learning, but can behave poorly under function approximation and distribution shift. In the entropy-regularized setting, we show that the soft Bellman operator is locally contractive in the stationary norm of the soft-optimal policy, rather than in the behavior norm used by standard FQI. This geometric mismatch explains the instability of soft Q-iteration with function approximation in the absence of Bellman completeness. To restore contraction, we introduce stationary-reweighted soft FQI, which reweights each regression update using the stationary distribution of the current policy. We prove local linear convergence under function approximation with geometrically damped weight-estimation errors, assuming approximate realizability. Our analysis further suggests that global convergence may be recovered by gradually reducing the softmax temperature, and that this continuation approach can extend to the hardmax limit under a mild margin condition.


翻译:拟合Q迭代(FQI)及其熵正则化变体——软FQI,是基于价值的无模型离线强化学习的核心工具,但在函数逼近和分布偏移下可能表现不佳。在熵正则化设定中,我们证明了软贝尔曼算子在软最优策略的平稳范数下是局部压缩的,而非标准FQI所使用的行为范数。这种几何失配解释了在缺乏贝尔曼完备性时,软Q迭代在函数逼近下的不稳定性。为恢复压缩性,我们引入了平稳重加权软FQI,该方法使用当前策略的平稳分布对每个回归更新进行重加权。在近似可实现性假设下,我们证明了在函数逼近下具有几何衰减的权重估计误差时,算法可实现局部线性收敛。我们的分析进一步表明,通过逐步降低softmax温度可能恢复全局收敛性,且这种延拓方法在温和的边界条件下可扩展至hardmax极限。

0
下载
关闭预览

相关内容

基于深度学习的物体姿态估计综述
专知会员服务
26+阅读 · 2024年5月15日
【AAAI2023】用于图对比学习的谱特征增强
专知
20+阅读 · 2022年12月11日
Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证
深度强化学习实验室
19+阅读 · 2020年8月11日
基于 SonarQube 的增量代码扫描
DevOps时代
12+阅读 · 2019年7月18日
换个角度看GAN:另一种损失函数
机器之心
16+阅读 · 2019年1月1日
Seq2seq强化,Pointer Network简介
机器学习算法与Python学习
15+阅读 · 2018年12月8日
数据分析师应该知道的16种回归技术:岭回归
数萃大数据
15+阅读 · 2018年8月11日
超全总结:神经网络加速之量化模型 | 附带代码
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月3日
VIP会员
相关VIP内容
基于深度学习的物体姿态估计综述
专知会员服务
26+阅读 · 2024年5月15日
相关资讯
【AAAI2023】用于图对比学习的谱特征增强
专知
20+阅读 · 2022年12月11日
Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证
深度强化学习实验室
19+阅读 · 2020年8月11日
基于 SonarQube 的增量代码扫描
DevOps时代
12+阅读 · 2019年7月18日
换个角度看GAN:另一种损失函数
机器之心
16+阅读 · 2019年1月1日
Seq2seq强化,Pointer Network简介
机器学习算法与Python学习
15+阅读 · 2018年12月8日
数据分析师应该知道的16种回归技术:岭回归
数萃大数据
15+阅读 · 2018年8月11日
超全总结:神经网络加速之量化模型 | 附带代码
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员