Neural Value Iteration - 专知论文

会员服务 ·

0

值迭代 · 价值函数 · 值函数 · 表示 · 神经网络 ·

Neural Value Iteration

翻译：神经价值迭代

Yang You,Ufuk Çakır,Alex Schutz,Nick Hawes

The value function of a POMDP exhibits the piecewise-linear-convex (PWLC) property and can be represented as a finite set of hyperplanes, known as $α$-vectors. Most state-of-the-art POMDP solvers (offline planners) follow the point-based value iteration scheme, which performs Bellman backups on $α$-vectors at reachable belief points until convergence. However, since each $α$-vector is $|S|$-dimensional, these methods quickly become intractable for large-scale problems due to the prohibitive computational cost of Bellman backups. In this work, we demonstrate that the PWLC property allows a POMDP's value function to be alternatively represented as a finite set of neural networks. This insight enables a novel POMDP planning algorithm called \emph{Neural Value Iteration}, which combines the generalization capability of neural networks with the classical value iteration framework. Our approach achieves near-optimal solutions even in extremely large POMDPs that are intractable for existing offline solvers.

翻译：部分可观测马尔可夫决策过程（POMDP）的价值函数具有分段线性凸（PWLC）性质，可表示为一组有限的超平面，即$α$-向量。大多数先进的POMDP求解器（离线规划器）遵循基于点的价值迭代方案，该方案在可达信念点处对$α$-向量执行贝尔曼备份直至收敛。然而，由于每个$α$-向量是$|S|$维的，贝尔曼备份的过高计算成本导致这些方法在处理大规模问题时迅速变得难以处理。本工作证明，PWLC性质允许将POMDP的价值函数替代地表示为一组有限的神经网络。这一洞见催生了一种名为\emph{神经价值迭代}的新型POMDP规划算法，它将神经网络的泛化能力与经典价值迭代框架相结合。即使在现有离线求解器无法处理的超大规模POMDP中，我们的方法仍能获得接近最优的解。

0

相关内容

值迭代

TransMLA：多头潜在注意力（MLA）即为所需

TransMLA：多头潜在注意力（MLA）即为所需

专知会员服务

23+阅读 · 2025年2月13日

【伯克利博士论文】不确定性序列决策:最优性保证，组合学习，以及在机器人技术和生态学中的应用，256页pdf

【伯克利博士论文】不确定性序列决策:最优性保证，组合学习，以及在机器人技术和生态学中的应用，256页pdf

专知会员服务

38+阅读 · 2023年5月17日

层次和神经非负张量分解，90页ppt

层次和神经非负张量分解，90页ppt

专知会员服务

24+阅读 · 2022年12月25日

谷歌大脑《自动强化学习》教程，81页ppt!

谷歌大脑《自动强化学习》教程，81页ppt!

专知会员服务

68+阅读 · 2022年8月15日

NeurIPS 2021 | 华为诺亚Oral论文：基于频域的二值神经网络训练方法

NeurIPS 2021 | 华为诺亚Oral论文：基于频域的二值神经网络训练方法

专知会员服务

16+阅读 · 2021年12月16日

【UCLA】基于深度神经网络的工业大模型预测控制，36页ppt

【UCLA】基于深度神经网络的工业大模型预测控制，36页ppt

专知会员服务

51+阅读 · 2020年5月23日

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

专知会员服务

35+阅读 · 2020年4月15日

【ICLR2020】利用图神经网络进行高效概率逻辑推理，Efficient Probabilistic Logic Reasoning with Graph Neural Networks

【ICLR2020】利用图神经网络进行高效概率逻辑推理，Efficient Probabilistic Logic Reasoning with Graph Neural Networks

专知会员服务

113+阅读 · 2020年1月29日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

70+阅读 · 2020年1月17日

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

专知会员服务

13+阅读 · 2019年11月17日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

专知

18+阅读 · 2020年6月22日

“推荐系统”加上“图神经网络”

“推荐系统”加上“图神经网络”

机器学习与推荐算法

12+阅读 · 2020年3月23日

【GNN】深度学习之上，图神经网络（GNN ）崛起

【GNN】深度学习之上，图神经网络（GNN ）崛起

产业智能官

16+阅读 · 2019年8月15日

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

中国自动化学会

11+阅读 · 2019年6月18日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

未来产业促进会

18+阅读 · 2019年3月10日

meta learning 17年：MAML SNAIL

meta learning 17年：MAML SNAIL

CreateAMind

11+阅读 · 2019年1月2日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

专知

17+阅读 · 2018年2月11日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

大型稀疏奇异复对称线性系统的高效迭代法研究

国家自然科学基金

0+阅读 · 2015年12月31日

非光滑非凸优化问题的交替线性化算法及其应用

国家自然科学基金

6+阅读 · 2015年12月31日

低密度奇偶校验码的误码平层和迭代译码算法的混沌特性分析

国家自然科学基金

0+阅读 · 2015年12月31日

逐段决定马氏过程的测度值生成元与可加泛函

国家自然科学基金

0+阅读 · 2014年12月31日

在骨髓间充质干细胞过表达CX3CL1 与Wnt3a基因调节小胶质细胞活性促进神经元再生

国家自然科学基金

0+阅读 · 2014年12月31日

求解非线性方程的加速迭代算法

国家自然科学基金

0+阅读 · 2014年12月31日

基于quantaloid-加载范畴的quantale值收敛理论

国家自然科学基金

1+阅读 · 2014年12月31日

Bdnf基因转录的表观遗传调控在重复经颅磁刺激恢复大鼠脑缺血后神经功能中的作用

国家自然科学基金

0+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

Continuous-Time Value Iteration for Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月19日

Finite-State Controllers for (Hidden-Model) POMDPs using Deep Reinforcement Learning

Arxiv

0+阅读 · 2月9日

Perception-Based Beliefs for POMDPs with Visual Observations

Arxiv

0+阅读 · 2月5日

Toward Learning POMDPs Beyond Full-Rank Actions and State Observability

Arxiv

0+阅读 · 2月3日

Toward Learning POMDPs Beyond Full-Rank Actions and State Observability

Arxiv

0+阅读 · 2月1日

Strongly Polynomial Time Complexity of Policy Iteration for $L_\infty$ Robust MDPs

Arxiv

0+阅读 · 1月30日

Chaotic Hedging with Iterated Integrals and Neural Networks

Arxiv

0+阅读 · 1月27日

Toward Learning POMDPs Beyond Full-Rank Actions and State Observability

Arxiv

0+阅读 · 1月26日

Multigrade Neural Network Approximation

Arxiv

0+阅读 · 1月23日

Factored Value Functions for Graph-Based Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 1月16日

VIP会员

文章信息

相关主题

最新内容

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

5+阅读 · 今天8:46

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

3+阅读 · 今天7:41

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

2+阅读 · 今天7:22

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

6+阅读 · 今天6:04

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

8+阅读 · 今天5:37

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

6+阅读 · 今天5:35

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

2+阅读 · 今天5:24

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

专知会员服务

2+阅读 · 今天5:18

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

专知会员服务

2+阅读 · 今天3:25

（中文版）美空军部发布《空军部数据战略》与《人工智能战略》两份战略：旨在加速建立军事优势

（中文版）美空军部发布《空军部数据战略》与《人工智能战略》两份战略：旨在加速建立军事优势

专知会员服务

14+阅读 · 今天2:55

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

3+阅读 · 4月23日

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

4+阅读 · 4月23日

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

4+阅读 · 4月23日

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

7+阅读 · 4月23日

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

3+阅读 · 4月23日

相关VIP内容

TransMLA：多头潜在注意力（MLA）即为所需

TransMLA：多头潜在注意力（MLA）即为所需

专知会员服务

23+阅读 · 2025年2月13日

【伯克利博士论文】不确定性序列决策:最优性保证，组合学习，以及在机器人技术和生态学中的应用，256页pdf

【伯克利博士论文】不确定性序列决策:最优性保证，组合学习，以及在机器人技术和生态学中的应用，256页pdf

专知会员服务

38+阅读 · 2023年5月17日

层次和神经非负张量分解，90页ppt

层次和神经非负张量分解，90页ppt

专知会员服务

24+阅读 · 2022年12月25日

谷歌大脑《自动强化学习》教程，81页ppt!

谷歌大脑《自动强化学习》教程，81页ppt!

专知会员服务

68+阅读 · 2022年8月15日

NeurIPS 2021 | 华为诺亚Oral论文：基于频域的二值神经网络训练方法

NeurIPS 2021 | 华为诺亚Oral论文：基于频域的二值神经网络训练方法

专知会员服务

16+阅读 · 2021年12月16日

【UCLA】基于深度神经网络的工业大模型预测控制，36页ppt

【UCLA】基于深度神经网络的工业大模型预测控制，36页ppt

专知会员服务

51+阅读 · 2020年5月23日

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

专知会员服务

35+阅读 · 2020年4月15日

【ICLR2020】利用图神经网络进行高效概率逻辑推理，Efficient Probabilistic Logic Reasoning with Graph Neural Networks

【ICLR2020】利用图神经网络进行高效概率逻辑推理，Efficient Probabilistic Logic Reasoning with Graph Neural Networks

专知会员服务

113+阅读 · 2020年1月29日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

70+阅读 · 2020年1月17日

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

专知会员服务

13+阅读 · 2019年11月17日

热门VIP内容

开通专知VIP会员享更多权益服务

战场之外的较量：美伊冲突中的认知战与心理博弈

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

以色列军事技术对美国军力发展的持续性赋能

俄乌战争中乌克兰防空能力演变与见解（中文版）

相关资讯

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

专知

18+阅读 · 2020年6月22日

“推荐系统”加上“图神经网络”

“推荐系统”加上“图神经网络”

机器学习与推荐算法

12+阅读 · 2020年3月23日

【GNN】深度学习之上，图神经网络（GNN ）崛起

【GNN】深度学习之上，图神经网络（GNN ）崛起

产业智能官

16+阅读 · 2019年8月15日

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

中国自动化学会

11+阅读 · 2019年6月18日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

未来产业促进会

18+阅读 · 2019年3月10日

meta learning 17年：MAML SNAIL

meta learning 17年：MAML SNAIL

CreateAMind

11+阅读 · 2019年1月2日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

专知

17+阅读 · 2018年2月11日

相关论文

Continuous-Time Value Iteration for Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月19日

Finite-State Controllers for (Hidden-Model) POMDPs using Deep Reinforcement Learning

Arxiv

0+阅读 · 2月9日

Perception-Based Beliefs for POMDPs with Visual Observations

Arxiv

0+阅读 · 2月5日

Toward Learning POMDPs Beyond Full-Rank Actions and State Observability

Arxiv

0+阅读 · 2月3日

Toward Learning POMDPs Beyond Full-Rank Actions and State Observability

Arxiv

0+阅读 · 2月1日

Strongly Polynomial Time Complexity of Policy Iteration for $L_\infty$ Robust MDPs

Arxiv

0+阅读 · 1月30日

Chaotic Hedging with Iterated Integrals and Neural Networks

Arxiv

0+阅读 · 1月27日

Toward Learning POMDPs Beyond Full-Rank Actions and State Observability

Arxiv

0+阅读 · 1月26日

Multigrade Neural Network Approximation

Arxiv

0+阅读 · 1月23日

Factored Value Functions for Graph-Based Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 1月16日

相关基金

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

大型稀疏奇异复对称线性系统的高效迭代法研究

国家自然科学基金

0+阅读 · 2015年12月31日

非光滑非凸优化问题的交替线性化算法及其应用

国家自然科学基金

6+阅读 · 2015年12月31日

低密度奇偶校验码的误码平层和迭代译码算法的混沌特性分析

国家自然科学基金

0+阅读 · 2015年12月31日

逐段决定马氏过程的测度值生成元与可加泛函

国家自然科学基金

0+阅读 · 2014年12月31日

在骨髓间充质干细胞过表达CX3CL1 与Wnt3a基因调节小胶质细胞活性促进神经元再生

国家自然科学基金

0+阅读 · 2014年12月31日

求解非线性方程的加速迭代算法

国家自然科学基金

0+阅读 · 2014年12月31日

基于quantaloid-加载范畴的quantale值收敛理论

国家自然科学基金

1+阅读 · 2014年12月31日

Bdnf基因转录的表观遗传调控在重复经颅磁刺激恢复大鼠脑缺血后神经功能中的作用

国家自然科学基金

0+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员