Optimistic Training and Convergence of Q-Learning -- Extended Version - 专知论文

会员服务 ·

0

Learning · 示例 · 基函数 · 收敛性 · 函数逼近 ·

Optimistic Training and Convergence of Q-Learning -- Extended Version

翻译：Q-Learning的乐观训练与收敛性——扩展版本

Prashant Mehta,Sean Meyn

In recent work it is shown that Q-learning with linear function approximation is stable, in the sense of bounded parameter estimates, under the $(\varepsilon,κ)$-tamed Gibbs policy; $κ$ is inverse temperature, and $\varepsilon>0$ is introduced for additional exploration. Under these assumptions it also follows that there is a solution to the projected Bellman equation (PBE). Left open is uniqueness of the solution, and criteria for convergence outside of the standard tabular or linear MDP settings. The present work extends these results to other variants of Q-learning, and clarifies prior work: a one dimensional example shows that under an oblivious policy for training there may be no solution to the PBE, or multiple solutions, and in each case the algorithm is not stable under oblivious training. The main contribution is that far more structure is required for convergence. An example is presented for which the basis is ideal, in the sense that the true Q-function is in the span of the basis. However, there are two solutions to the PBE under the greedy policy, and hence also for the $(\varepsilon,κ)$-tamed Gibbs policy for all sufficiently small $\varepsilon>0$ and $κ\ge 1$.

翻译：近期研究表明，采用线性函数逼近的Q-learning在$(\varepsilon,κ)$-驯服吉布斯策略下具有稳定性（即参数估计有界）；其中$κ$为逆温度参数，$\varepsilon>0$用于增强探索性。在此假设下，投影贝尔曼方程（PBE）解的存在性亦得以证明。然而解的唯一性，以及在标准表格型或线性MDP设定之外的收敛准则仍未解决。本研究将上述结果推广至Q-learning的其他变体，并澄清了先前工作：通过一维示例证明，在训练采用无感知策略时，PBE可能无解或存在多解，且无论何种情况算法在无感知训练下均不稳定。主要贡献在于揭示了收敛需要更丰富的结构条件。本文展示了一个基函数理想的示例——真实Q函数位于基函数张成的空间内。然而在贪婪策略下PBE存在两个解，这意味着对于所有充分小的$\varepsilon>0$和$κ\ge 1$，$(\varepsilon,κ)$-驯服吉布斯策略下同样存在多解现象。

0

相关内容

Learning

《基于随机森林的Q学习算法：迈向可解释人工智能》最新90页

《基于随机森林的Q学习算法：迈向可解释人工智能》最新90页

专知会员服务

31+阅读 · 2025年3月15日

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

专知会员服务

29+阅读 · 2024年10月4日

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

专知会员服务

41+阅读 · 2020年12月6日

【AAAI2021】自校正Q学习，Self-correcting Q-Learning

专知会员服务

17+阅读 · 2020年12月4日

首篇《深度学习不确定性量化: 技术、应用与挑战》2020综述论文，61页pdf582篇文献

专知会员服务

106+阅读 · 2020年11月16日

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

专知会员服务

17+阅读 · 2020年7月14日

【MIT】反偏差对比学习，Debiased Contrastive Learning

【MIT】反偏差对比学习，Debiased Contrastive Learning

专知会员服务

92+阅读 · 2020年7月4日

最新《机器学习最优化》课程笔记，36页pdf，Optimization for Machine Learning

专知会员服务

171+阅读 · 2020年5月10日

【谷歌大脑新论文】利用可微摄动优化器进行学习，Learning with Differentiable Perturbed Optimizers

【谷歌大脑新论文】利用可微摄动优化器进行学习，Learning with Differentiable Perturbed Optimizers

专知会员服务

29+阅读 · 2020年2月22日

【变分推断课件】Lectures on Variational Inference： Approximate Bayesian Inference in Machine Learning（附带pdf）

【变分推断课件】Lectures on Variational Inference： Approximate Bayesian Inference in Machine Learning（附带pdf）

专知会员服务

35+阅读 · 2019年11月30日

系列教程GNN-algorithms之三：《将图卷积简化进行到底—SGC》

系列教程GNN-algorithms之三：《将图卷积简化进行到底—SGC》

专知

10+阅读 · 2020年8月5日

强化学习开篇：Q-Learning原理详解

强化学习开篇：Q-Learning原理详解

AINLP

37+阅读 · 2020年7月28日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

强化学习扫盲贴：从Q-learning到DQN

强化学习扫盲贴：从Q-learning到DQN

夕小瑶的卖萌屋

52+阅读 · 2019年10月13日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

值得期待的MIT-Gilbert Strang新书：《线性代数与数据学习》(内容覆盖深度学习，有样章)

值得期待的MIT-Gilbert Strang新书：《线性代数与数据学习》(内容覆盖深度学习，有样章)

专知

45+阅读 · 2019年1月7日

入门 | 通过 Q-learning 深入理解强化学习

入门 | 通过 Q-learning 深入理解强化学习

机器之心

12+阅读 · 2018年4月17日

入门 | 从Q学习到DDPG，一文简述多种强化学习算法

入门 | 从Q学习到DDPG，一文简述多种强化学习算法

机器之心

17+阅读 · 2018年1月21日

几类非线性微分方程的变分和拓扑方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

积分型样条函数逼近新理论、新方法及应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

平面上几类椭圆型方程解的集中现象

国家自然科学基金

0+阅读 · 2015年12月31日

函数逼近论的一些极值问题与多元线性问题的可处理性

国家自然科学基金

2+阅读 · 2014年12月31日

全空间中临界Surface Quasi-geostrophic方程的全局吸引子及其分形维数

国家自然科学基金

0+阅读 · 2014年12月31日

统计收敛的测度理论与超滤子收敛

国家自然科学基金

0+阅读 · 2014年12月31日

基于quantaloid-加载范畴的quantale值收敛理论

国家自然科学基金

1+阅读 · 2014年12月31日

分数阶扩散方程反向问题的正则化理论与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

几类扩散过程的逼近及应用

国家自然科学基金

1+阅读 · 2014年12月31日

Convergence of Distributionally Robust Q-Learning with Linear Function Approximation

Arxiv

0+阅读 · 3月16日

Structured Credal Learning

Arxiv

0+阅读 · 3月14日

Optimistically Optimistic Exploration for Provably Efficient Infinite-Horizon Reinforcement and Imitation Learning

Arxiv

0+阅读 · 3月13日

Frozen Policy Iteration: Computationally Efficient RL under Linear $Q^π$ Realizability for Deterministic Dynamics

Arxiv

0+阅读 · 2月28日

Regret and Sample Complexity of Online Q-Learning via Concentration of Stochastic Approximation with Time-Inhomogeneous Markov Chains

Arxiv

0+阅读 · 2月18日

Convergence and Connectivity: Dynamics of Multi-Agent Q-Learning in Random Networks

Arxiv

0+阅读 · 2月10日

Continuous-time reinforcement learning: ellipticity enables model-free value function approximation

Arxiv

0+阅读 · 2月6日

Rationality Measurement and Theory for Reinforcement Learning Agents

Arxiv

0+阅读 · 2月4日

PIQL: Projective Implicit Q-Learning with Support Constraint for Offline Reinforcement Learning

Arxiv

0+阅读 · 2月2日

Equivalence of Privacy and Stability with Generalization Guarantees in Quantum Learning

Arxiv

0+阅读 · 2月1日

VIP会员

文章信息

相关主题

最新内容

大语言模型平台在国防情报应用中的对比

大语言模型平台在国防情报应用中的对比

专知会员服务

3+阅读 · 今天3:12

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

专知会员服务

4+阅读 · 今天3:00

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

专知会员服务

2+阅读 · 今天2:56

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

专知会员服务

2+阅读 · 今天2:44

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

专知会员服务

4+阅读 · 今天2:37

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

专知会员服务

3+阅读 · 今天2:22

美海军“超配项目”

美海军“超配项目”

专知会员服务

4+阅读 · 今天2:13

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

10+阅读 · 4月21日

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

13+阅读 · 4月21日

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

7+阅读 · 4月21日

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

8+阅读 · 4月21日

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

11+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

10+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

6+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

4+阅读 · 4月20日

相关VIP内容

《基于随机森林的Q学习算法：迈向可解释人工智能》最新90页

《基于随机森林的Q学习算法：迈向可解释人工智能》最新90页

专知会员服务

31+阅读 · 2025年3月15日

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

专知会员服务

29+阅读 · 2024年10月4日

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

专知会员服务

41+阅读 · 2020年12月6日

【AAAI2021】自校正Q学习，Self-correcting Q-Learning

专知会员服务

17+阅读 · 2020年12月4日

首篇《深度学习不确定性量化: 技术、应用与挑战》2020综述论文，61页pdf582篇文献

专知会员服务

106+阅读 · 2020年11月16日

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

专知会员服务

17+阅读 · 2020年7月14日

【MIT】反偏差对比学习，Debiased Contrastive Learning

【MIT】反偏差对比学习，Debiased Contrastive Learning

专知会员服务

92+阅读 · 2020年7月4日

最新《机器学习最优化》课程笔记，36页pdf，Optimization for Machine Learning

专知会员服务

171+阅读 · 2020年5月10日

【谷歌大脑新论文】利用可微摄动优化器进行学习，Learning with Differentiable Perturbed Optimizers

【谷歌大脑新论文】利用可微摄动优化器进行学习，Learning with Differentiable Perturbed Optimizers

专知会员服务

29+阅读 · 2020年2月22日

【变分推断课件】Lectures on Variational Inference： Approximate Bayesian Inference in Machine Learning（附带pdf）

【变分推断课件】Lectures on Variational Inference： Approximate Bayesian Inference in Machine Learning（附带pdf）

专知会员服务

35+阅读 · 2019年11月30日

热门VIP内容

开通专知VIP会员享更多权益服务

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

大语言模型平台在国防情报应用中的对比

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

相关资讯

系列教程GNN-algorithms之三：《将图卷积简化进行到底—SGC》

系列教程GNN-algorithms之三：《将图卷积简化进行到底—SGC》

专知

10+阅读 · 2020年8月5日

强化学习开篇：Q-Learning原理详解

强化学习开篇：Q-Learning原理详解

AINLP

37+阅读 · 2020年7月28日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

强化学习扫盲贴：从Q-learning到DQN

强化学习扫盲贴：从Q-learning到DQN

夕小瑶的卖萌屋

52+阅读 · 2019年10月13日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

值得期待的MIT-Gilbert Strang新书：《线性代数与数据学习》(内容覆盖深度学习，有样章)

值得期待的MIT-Gilbert Strang新书：《线性代数与数据学习》(内容覆盖深度学习，有样章)

专知

45+阅读 · 2019年1月7日

入门 | 通过 Q-learning 深入理解强化学习

入门 | 通过 Q-learning 深入理解强化学习

机器之心

12+阅读 · 2018年4月17日

入门 | 从Q学习到DDPG，一文简述多种强化学习算法

入门 | 从Q学习到DDPG，一文简述多种强化学习算法

机器之心

17+阅读 · 2018年1月21日

相关论文

Convergence of Distributionally Robust Q-Learning with Linear Function Approximation

Arxiv

0+阅读 · 3月16日

Structured Credal Learning

Arxiv

0+阅读 · 3月14日

Optimistically Optimistic Exploration for Provably Efficient Infinite-Horizon Reinforcement and Imitation Learning

Arxiv

0+阅读 · 3月13日

Frozen Policy Iteration: Computationally Efficient RL under Linear $Q^π$ Realizability for Deterministic Dynamics

Arxiv

0+阅读 · 2月28日

Regret and Sample Complexity of Online Q-Learning via Concentration of Stochastic Approximation with Time-Inhomogeneous Markov Chains

Arxiv

0+阅读 · 2月18日

Convergence and Connectivity: Dynamics of Multi-Agent Q-Learning in Random Networks

Arxiv

0+阅读 · 2月10日

Continuous-time reinforcement learning: ellipticity enables model-free value function approximation

Arxiv

0+阅读 · 2月6日

Rationality Measurement and Theory for Reinforcement Learning Agents

Arxiv

0+阅读 · 2月4日

PIQL: Projective Implicit Q-Learning with Support Constraint for Offline Reinforcement Learning

Arxiv

0+阅读 · 2月2日

Equivalence of Privacy and Stability with Generalization Guarantees in Quantum Learning

Arxiv

0+阅读 · 2月1日

相关基金

几类非线性微分方程的变分和拓扑方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

积分型样条函数逼近新理论、新方法及应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

平面上几类椭圆型方程解的集中现象

国家自然科学基金

0+阅读 · 2015年12月31日

函数逼近论的一些极值问题与多元线性问题的可处理性

国家自然科学基金

2+阅读 · 2014年12月31日

全空间中临界Surface Quasi-geostrophic方程的全局吸引子及其分形维数

国家自然科学基金

0+阅读 · 2014年12月31日

统计收敛的测度理论与超滤子收敛

国家自然科学基金

0+阅读 · 2014年12月31日

基于quantaloid-加载范畴的quantale值收敛理论

国家自然科学基金

1+阅读 · 2014年12月31日

分数阶扩散方程反向问题的正则化理论与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

几类扩散过程的逼近及应用

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员