The value function of a POMDP exhibits the piecewise-linear-convex (PWLC) property and can be represented as a finite set of hyperplanes, known as $α$-vectors. Most state-of-the-art POMDP solvers (offline planners) follow the point-based value iteration scheme, which performs Bellman backups on $α$-vectors at reachable belief points until convergence. However, since each $α$-vector is $|S|$-dimensional, these methods quickly become intractable for large-scale problems due to the prohibitive computational cost of Bellman backups. In this work, we demonstrate that the PWLC property allows a POMDP's value function to be alternatively represented as a finite set of neural networks. This insight enables a novel POMDP planning algorithm called \emph{Neural Value Iteration}, which combines the generalization capability of neural networks with the classical value iteration framework. Our approach achieves near-optimal solutions even in extremely large POMDPs that are intractable for existing offline solvers.


翻译:部分可观测马尔可夫决策过程(POMDP)的价值函数具有分段线性凸(PWLC)性质,可表示为一组有限的超平面,即$α$-向量。大多数先进的POMDP求解器(离线规划器)遵循基于点的价值迭代方案,该方案在可达信念点处对$α$-向量执行贝尔曼备份直至收敛。然而,由于每个$α$-向量是$|S|$维的,贝尔曼备份的过高计算成本导致这些方法在处理大规模问题时迅速变得难以处理。本工作证明,PWLC性质允许将POMDP的价值函数替代地表示为一组有限的神经网络。这一洞见催生了一种名为\emph{神经价值迭代}的新型POMDP规划算法,它将神经网络的泛化能力与经典价值迭代框架相结合。即使在现有离线求解器无法处理的超大规模POMDP中,我们的方法仍能获得接近最优的解。

0
下载
关闭预览

相关内容

TransMLA:多头潜在注意力(MLA)即为所需
专知会员服务
23+阅读 · 2025年2月13日
层次和神经非负张量分解,90页ppt
专知会员服务
24+阅读 · 2022年12月25日
谷歌大脑《自动强化学习》教程,81页ppt!
专知会员服务
67+阅读 · 2022年8月15日
【UCLA】基于深度神经网络的工业大模型预测控制,36页ppt
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
35+阅读 · 2020年4月15日
“推荐系统”加上“图神经网络”
机器学习与推荐算法
12+阅读 · 2020年3月23日
【GNN】深度学习之上,图神经网络(GNN )崛起
产业智能官
16+阅读 · 2019年8月15日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
0+阅读 · 1月23日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员