Scalar-Stepsize Nonuniform Monte Carlo Optimistic Policy Iteration: A Certified Counterexample - 专知论文

会员服务 ·

0

非均匀 · 标量 · 步长 · 蒙特卡罗 · 策略迭代 ·

Scalar-Stepsize Nonuniform Monte Carlo Optimistic Policy Iteration: A Certified Counterexample

翻译：标量步长非均匀蒙特卡罗乐观策略迭代：一个经认证的反例

Tsitsiklis proved convergence of Monte Carlo optimistic policy iteration under a uniform update structure and identified nonuniform update frequencies as a delicate obstruction. We give a certified negative answer for the natural scalar-stepsize, unnormalized asynchronous state-value recursion with fixed nonuniform state-selection probabilities. In a three-state, two-action discounted MDP, the nonuniform update frequencies induce a diagonally scaled greedy-policy mean field with a certified nonconstant attracting hybrid periodic orbit. With a bounded unbiased geometric-horizon estimator and Robbins--Monro stepsizes, the original stochastic recursion remains trapped near the cycle with positive probability and therefore fails to converge. The example pinpoints a geometric obstruction: uniform sampling gives radial residual contraction, whereas scalar nonuniform sampling anisotropically distorts the residual dynamics and can generate switched attracting cycles.

翻译：Tsitsiklis证明了在均匀更新结构下蒙特卡罗乐观策略迭代的收敛性，并指出非均匀更新频率是一个精妙的障碍。我们针对自然标量步长、非归一化异步状态值递归（采用固定非均匀状态选择概率）给出了经认证的否定答案。在一个三状态、两动作的折扣MDP中，非均匀更新频率诱导出一个对角缩放贪心策略平均场，该平均场具有经认证的非恒定吸引混合周期轨道。采用有界无偏几何视界估计量与Robbins-Monro步长，原始随机递归以正概率持续困在该循环附近，因此无法收敛。该例子揭示了一个几何障碍：均匀采样产生径向残差收缩，而标量非均匀采样各向异性地扭曲残差动态，可能生成切换型吸引周期轨道。

0

相关内容

非均匀

【牛津大学博士论文】不确定性量化与因果考量在非策略决策制定中的应用

【牛津大学博士论文】不确定性量化与因果考量在非策略决策制定中的应用

专知会员服务

20+阅读 · 2025年2月24日

《多目标响应面可取性函数最优点评价的统计推断》2022最新295页博士论文【含代码】，美国空军技术学院

《多目标响应面可取性函数最优点评价的统计推断》2022最新295页博士论文【含代码】，美国空军技术学院

专知会员服务

30+阅读 · 2022年11月3日

非凸优化问题综述“从对称性到几何性”，罗切斯特大学等

非凸优化问题综述“从对称性到几何性”，罗切斯特大学等

专知会员服务

29+阅读 · 2022年7月17日

《模拟空战团队态势感知精度测量技术——感知与绩效的曲线关系》芬兰国防大学

《模拟空战团队态势感知精度测量技术——感知与绩效的曲线关系》芬兰国防大学

专知会员服务

37+阅读 · 2022年6月20日

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

专知会员服务

33+阅读 · 2022年3月4日

【牛津大学】多级蒙特卡洛方法，70页pdf

【牛津大学】多级蒙特卡洛方法，70页pdf

专知会员服务

61+阅读 · 2022年2月3日

最新《非凸优化理论》进展书册，79页pdf

最新《非凸优化理论》进展书册，79页pdf

专知会员服务

112+阅读 · 2020年12月18日

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

专知会员服务

17+阅读 · 2020年7月14日

策略梯度方法的算子视图，An operator view of policy gradient methods

策略梯度方法的算子视图，An operator view of policy gradient methods

专知会员服务

11+阅读 · 2020年6月23日

【清华大学】自动微分蒙特卡洛，理论与应用，Automatic Differentiable Monte Carlo: Theory and Application (附pdf）

专知会员服务

28+阅读 · 2019年11月23日

【AAAI2023】用于图对比学习的谱特征增强

【AAAI2023】用于图对比学习的谱特征增强

专知

20+阅读 · 2022年12月11日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

52+阅读 · 2022年11月16日

步态识别新动态！专家报告 + 大咖观点

步态识别新动态！专家报告 + 大咖观点

中国图象图形学报

21+阅读 · 2020年10月14日

再发力！Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新SOTA准确率

再发力！Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新SOTA准确率

专知

48+阅读 · 2020年3月11日

详解ORB-SLAM2中的特征均匀提取策略

详解ORB-SLAM2中的特征均匀提取策略

计算机视觉life

11+阅读 · 2019年10月9日

数据分析师应该知道的16种回归技术：Lasso回归

数据分析师应该知道的16种回归技术：Lasso回归

数萃大数据

16+阅读 · 2018年8月13日

2018年6月13日精彩内容推荐（蒙特卡洛方法教程、2018深度学习视频行为识别概述等）

2018年6月13日精彩内容推荐（蒙特卡洛方法教程、2018深度学习视频行为识别概述等）

Chatbots技术与产品

42+阅读 · 2018年6月13日

资源 | 跟着Sutton经典教材学强化学习中的蒙特卡罗方法（代码实例）

资源 | 跟着Sutton经典教材学强化学习中的蒙特卡罗方法（代码实例）

大数据文摘

11+阅读 · 2018年6月12日

不用数学也能讲清贝叶斯理论的马尔可夫链蒙特卡洛方法？这篇文章做到了

不用数学也能讲清贝叶斯理论的马尔可夫链蒙特卡洛方法？这篇文章做到了

AI100

11+阅读 · 2017年12月24日

【AI唠科】Focal Loss：助大神何凯明获得ICCV最佳学生论文，究竟有什么功？|兼谈目标检测发展历程

【AI唠科】Focal Loss：助大神何凯明获得ICCV最佳学生论文，究竟有什么功？|兼谈目标检测发展历程

中国科学院自动化研究所

10+阅读 · 2017年11月16日

不确定分数阶非线性系统Mittag-Leffler自适应控制

国家自然科学基金

1+阅读 · 2016年12月31日

基于高效蒙特卡罗策略的最优化方法及应用研究

国家自然科学基金

9+阅读 · 2015年12月31日

随机波动率模型下金融衍生产品定价中的条件蒙特卡罗加速方法

国家自然科学基金

1+阅读 · 2015年12月31日

非光滑非凸优化问题的交替线性化算法及其应用

国家自然科学基金

6+阅读 · 2015年12月31日

Riemann-Hilbert 方法的一致渐近分析及其应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

一类不确定非线性大系统的非光滑分散控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

超线性增长条件下的混杂型随机时滞微分方程

国家自然科学基金

0+阅读 · 2014年12月31日

求解非线性方程的加速迭代算法

国家自然科学基金

0+阅读 · 2014年12月31日

非Lipschitz优化问题的理论算法研究及其在稀疏解还原问题中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

不确定非凸规划的稳健全局优化方法的研究

国家自然科学基金

1+阅读 · 2014年12月31日

Deterministic Denominator Design for Localized Tamed Stochastic-Gradient Langevin Dynamics

Arxiv

0+阅读 · 6月9日

A New Perspective on Reverse Diffusion for Monte Carlo Sampling

Arxiv

0+阅读 · 6月3日

Delayed Acceptance Markov Chain Monte Carlo for Robust Bayesian Analysis

Arxiv

0+阅读 · 6月2日

Acceleration by Random Stepsizes: Hedging, Equalization, and the Arcsine Stepsize Schedule

Arxiv

0+阅读 · 5月29日

Reinforced sequential Monte Carlo for amortised sampling

Arxiv

0+阅读 · 5月29日

True Self-Avoiding Walk for Accelerating Markov-Chain Monte Carlo Integration

Arxiv

0+阅读 · 5月28日

Faster Hamiltonian Monte Carlo by Learning Leapfrog Scale: a self-calibrated randomized solution

Arxiv

0+阅读 · 5月22日

When and Why is Optimistic Multiplicative Weights Slow? The Geometry of Energy Dissipation

Arxiv

0+阅读 · 5月13日

Natural Policy Gradient as Doubly Smoothed Policy Iteration: A Bellman-Operator Framework

Arxiv

0+阅读 · 5月11日

Analysis of kinetic Langevin Monte Carlo under the stochastic exponential Euler discretization from underdamped all the way to overdamped

Arxiv

0+阅读 · 5月7日

VIP会员

文章信息

相关主题

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

0+阅读 · 今天2:42

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

1+阅读 · 今天2:37

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

2+阅读 · 今天2:23

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

5+阅读 · 今天2:21

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

2+阅读 · 今天1:46

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

8+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

相关VIP内容

【牛津大学博士论文】不确定性量化与因果考量在非策略决策制定中的应用

【牛津大学博士论文】不确定性量化与因果考量在非策略决策制定中的应用

专知会员服务

20+阅读 · 2025年2月24日

《多目标响应面可取性函数最优点评价的统计推断》2022最新295页博士论文【含代码】，美国空军技术学院

《多目标响应面可取性函数最优点评价的统计推断》2022最新295页博士论文【含代码】，美国空军技术学院

专知会员服务

30+阅读 · 2022年11月3日

非凸优化问题综述“从对称性到几何性”，罗切斯特大学等

非凸优化问题综述“从对称性到几何性”，罗切斯特大学等

专知会员服务

29+阅读 · 2022年7月17日

《模拟空战团队态势感知精度测量技术——感知与绩效的曲线关系》芬兰国防大学

《模拟空战团队态势感知精度测量技术——感知与绩效的曲线关系》芬兰国防大学

专知会员服务

37+阅读 · 2022年6月20日

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

专知会员服务

33+阅读 · 2022年3月4日

【牛津大学】多级蒙特卡洛方法，70页pdf

【牛津大学】多级蒙特卡洛方法，70页pdf

专知会员服务

61+阅读 · 2022年2月3日

最新《非凸优化理论》进展书册，79页pdf

最新《非凸优化理论》进展书册，79页pdf

专知会员服务

112+阅读 · 2020年12月18日

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

专知会员服务

17+阅读 · 2020年7月14日

策略梯度方法的算子视图，An operator view of policy gradient methods

策略梯度方法的算子视图，An operator view of policy gradient methods

专知会员服务

11+阅读 · 2020年6月23日

【清华大学】自动微分蒙特卡洛，理论与应用，Automatic Differentiable Monte Carlo: Theory and Application (附pdf）

专知会员服务

28+阅读 · 2019年11月23日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

【AAAI2023】用于图对比学习的谱特征增强

【AAAI2023】用于图对比学习的谱特征增强

专知

20+阅读 · 2022年12月11日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

52+阅读 · 2022年11月16日

步态识别新动态！专家报告 + 大咖观点

步态识别新动态！专家报告 + 大咖观点

中国图象图形学报

21+阅读 · 2020年10月14日

再发力！Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新SOTA准确率

再发力！Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新SOTA准确率

专知

48+阅读 · 2020年3月11日

详解ORB-SLAM2中的特征均匀提取策略

详解ORB-SLAM2中的特征均匀提取策略

计算机视觉life

11+阅读 · 2019年10月9日

数据分析师应该知道的16种回归技术：Lasso回归

数据分析师应该知道的16种回归技术：Lasso回归

数萃大数据

16+阅读 · 2018年8月13日

2018年6月13日精彩内容推荐（蒙特卡洛方法教程、2018深度学习视频行为识别概述等）

2018年6月13日精彩内容推荐（蒙特卡洛方法教程、2018深度学习视频行为识别概述等）

Chatbots技术与产品

42+阅读 · 2018年6月13日

资源 | 跟着Sutton经典教材学强化学习中的蒙特卡罗方法（代码实例）

资源 | 跟着Sutton经典教材学强化学习中的蒙特卡罗方法（代码实例）

大数据文摘

11+阅读 · 2018年6月12日

不用数学也能讲清贝叶斯理论的马尔可夫链蒙特卡洛方法？这篇文章做到了

不用数学也能讲清贝叶斯理论的马尔可夫链蒙特卡洛方法？这篇文章做到了

AI100

11+阅读 · 2017年12月24日

【AI唠科】Focal Loss：助大神何凯明获得ICCV最佳学生论文，究竟有什么功？|兼谈目标检测发展历程

【AI唠科】Focal Loss：助大神何凯明获得ICCV最佳学生论文，究竟有什么功？|兼谈目标检测发展历程

中国科学院自动化研究所

10+阅读 · 2017年11月16日

相关论文

Deterministic Denominator Design for Localized Tamed Stochastic-Gradient Langevin Dynamics

Arxiv

0+阅读 · 6月9日

A New Perspective on Reverse Diffusion for Monte Carlo Sampling

Arxiv

0+阅读 · 6月3日

Delayed Acceptance Markov Chain Monte Carlo for Robust Bayesian Analysis

Arxiv

0+阅读 · 6月2日

Acceleration by Random Stepsizes: Hedging, Equalization, and the Arcsine Stepsize Schedule

Arxiv

0+阅读 · 5月29日

Reinforced sequential Monte Carlo for amortised sampling

Arxiv

0+阅读 · 5月29日

True Self-Avoiding Walk for Accelerating Markov-Chain Monte Carlo Integration

Arxiv

0+阅读 · 5月28日

Faster Hamiltonian Monte Carlo by Learning Leapfrog Scale: a self-calibrated randomized solution

Arxiv

0+阅读 · 5月22日

When and Why is Optimistic Multiplicative Weights Slow? The Geometry of Energy Dissipation

Arxiv

0+阅读 · 5月13日

Natural Policy Gradient as Doubly Smoothed Policy Iteration: A Bellman-Operator Framework

Arxiv

0+阅读 · 5月11日

Analysis of kinetic Langevin Monte Carlo under the stochastic exponential Euler discretization from underdamped all the way to overdamped

Arxiv

0+阅读 · 5月7日

相关基金

不确定分数阶非线性系统Mittag-Leffler自适应控制

国家自然科学基金

1+阅读 · 2016年12月31日

基于高效蒙特卡罗策略的最优化方法及应用研究

国家自然科学基金

9+阅读 · 2015年12月31日

随机波动率模型下金融衍生产品定价中的条件蒙特卡罗加速方法

国家自然科学基金

1+阅读 · 2015年12月31日

非光滑非凸优化问题的交替线性化算法及其应用

国家自然科学基金

6+阅读 · 2015年12月31日

Riemann-Hilbert 方法的一致渐近分析及其应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

一类不确定非线性大系统的非光滑分散控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

超线性增长条件下的混杂型随机时滞微分方程

国家自然科学基金

0+阅读 · 2014年12月31日

求解非线性方程的加速迭代算法

国家自然科学基金

0+阅读 · 2014年12月31日

非Lipschitz优化问题的理论算法研究及其在稀疏解还原问题中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

不确定非凸规划的稳健全局优化方法的研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员