Tsitsiklis proved convergence of Monte Carlo optimistic policy iteration under a uniform update structure and identified nonuniform update frequencies as a delicate obstruction. We give a certified negative answer for the natural scalar-stepsize, unnormalized asynchronous state-value recursion with fixed nonuniform state-selection probabilities. In a three-state, two-action discounted MDP, the nonuniform update frequencies induce a diagonally scaled greedy-policy mean field with a certified nonconstant attracting hybrid periodic orbit. With a bounded unbiased geometric-horizon estimator and Robbins--Monro stepsizes, the original stochastic recursion remains trapped near the cycle with positive probability and therefore fails to converge. The example pinpoints a geometric obstruction: uniform sampling gives radial residual contraction, whereas scalar nonuniform sampling anisotropically distorts the residual dynamics and can generate switched attracting cycles.


翻译:Tsitsiklis证明了在均匀更新结构下蒙特卡罗乐观策略迭代的收敛性,并指出非均匀更新频率是一个精妙的障碍。我们针对自然标量步长、非归一化异步状态值递归(采用固定非均匀状态选择概率)给出了经认证的否定答案。在一个三状态、两动作的折扣MDP中,非均匀更新频率诱导出一个对角缩放贪心策略平均场,该平均场具有经认证的非恒定吸引混合周期轨道。采用有界无偏几何视界估计量与Robbins-Monro步长,原始随机递归以正概率持续困在该循环附近,因此无法收敛。该例子揭示了一个几何障碍:均匀采样产生径向残差收缩,而标量非均匀采样各向异性地扭曲残差动态,可能生成切换型吸引周期轨道。

0
下载
关闭预览

相关内容

【牛津大学】多级蒙特卡洛方法,70页pdf
专知会员服务
61+阅读 · 2022年2月3日
最新《非凸优化理论》进展书册,79页pdf
专知会员服务
112+阅读 · 2020年12月18日
【AAAI2023】用于图对比学习的谱特征增强
专知
20+阅读 · 2022年12月11日
步态识别新动态 !专家报告 + 大咖观点
中国图象图形学报
21+阅读 · 2020年10月14日
详解ORB-SLAM2中的特征均匀提取策略
计算机视觉life
11+阅读 · 2019年10月9日
数据分析师应该知道的16种回归技术:Lasso回归
数萃大数据
16+阅读 · 2018年8月13日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
10+阅读 · 6月15日
相关VIP内容
【牛津大学】多级蒙特卡洛方法,70页pdf
专知会员服务
61+阅读 · 2022年2月3日
最新《非凸优化理论》进展书册,79页pdf
专知会员服务
112+阅读 · 2020年12月18日
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员