We study the sample complexity of learning an $ε$-optimal policy in the Stochastic Shortest Path (SSP) problem. We first derive sample complexity bounds when the learner has access to a generative model. We show that there exists a worst-case SSP instance with $S$ states, $A$ actions, minimum cost $c_{\min}$, and maximum expected cost of the optimal policy over all states $B_{\star}$, where any algorithm requires at least $Ω(SAB_{\star}^3/(c_{\min}ε^2))$ samples to return an $ε$-optimal policy with high probability. Surprisingly, this implies that whenever $c_{\min} = 0$ an SSP problem may not be learnable, thus revealing that learning in SSPs is strictly harder than in the finite-horizon and discounted settings. We complement this lower bound with an algorithm that matches it, up to logarithmic factors, in the general case, and an algorithm that matches it up to logarithmic factors even when $c_{\min} = 0$, but only under the condition that the optimal policy has a bounded hitting time to the goal state.


翻译:我们研究在随机最短路径(SSP)问题中学习一个$ε$-最优策略的样本复杂度。首先,我们推导了当学习器可以访问生成模型时的样本复杂度界。结果表明,存在一个最坏情况的SSP实例,具有$S$个状态、$A$个动作、最小代价$c_{\min}$以及所有状态下最优策略的最大期望代价$B_{\star}$,任何算法至少需要$Ω(SAB_{\star}^3/(c_{\min}ε^2))$个样本才能以高概率返回一个$ε$-最优策略。令人惊讶的是,这意味着当$c_{\min} = 0$时,SSP问题可能是不可学习的,从而揭示出SSP中的学习严格难于有限时域和折扣设置。我们通过一个算法(在一般情况下,最多对数因子地匹配该下界)以及另一个算法(即使当$c_{\min} = 0$时,也最多对数因子地匹配该下界,但仅在最优策略具有到目标状态的有界击中时间条件下成立)来补充这一下界。

0
下载
关闭预览

相关内容

【CVPR2025】在去噪扩散模型中优化最短路径
专知会员服务
16+阅读 · 2025年3月10日
专知会员服务
44+阅读 · 2020年9月25日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月23日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
2+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
3+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
3+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
【CVPR2025】在去噪扩散模型中优化最短路径
专知会员服务
16+阅读 · 2025年3月10日
专知会员服务
44+阅读 · 2020年9月25日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员