A Covering Framework for Offline POMDPs Learning using Belief Space Metric - 专知论文

会员服务 ·

0

覆盖 · 度量 · 分析 · 算法 · 部分可观测马尔可夫决策过程 ·

A Covering Framework for Offline POMDPs Learning using Belief Space Metric

翻译：基于信念空间度量的离线POMDP学习的覆盖框架

Youheng Zhu,Yiping Lu

In off policy evaluation (OPE) for partially observable Markov decision processes (POMDPs), an agent must infer hidden states from past observations, which exacerbates both the curse of horizon and the curse of memory in existing OPE methods. This paper introduces a novel covering analysis framework that exploits the intrinsic metric structure of the belief space (distributions over latent states) to relax traditional coverage assumptions. By assuming value relevant functions are Lipschitz continuous in the belief space, we derive error bounds that mitigate exponential blow ups in horizon and memory length. Our unified analysis technique applies to a broad class of OPE algorithms, yielding concrete error bounds and coverage requirements expressed in terms of belief space metrics rather than raw history coverage. We illustrate the improved sample efficiency of this framework via case studies: the double sampling Bellman error minimization algorithm, and the memory based future dependent value functions (FDVF). In both cases, our coverage definition based on the belief space metric yields tighter bounds.

翻译：在部分可观测马尔可夫决策过程（POMDP）的离线策略评估（OPE）中，智能体必须从过往观测中推断隐藏状态，这加剧了现有OPE方法中的“视野诅咒”与“记忆诅咒”。本文提出一种新颖的覆盖分析框架，通过利用信念空间（潜在状态上的分布）的内在度量结构来放松传统覆盖假设。通过假设价值相关函数在信念空间中满足Lipschitz连续性，我们推导出能够缓解视野与记忆长度指数级爆炸的误差界。我们的统一分析技术适用于广泛的OPE算法类别，所得到的误差界与覆盖需求均以信念空间度量而非原始历史覆盖来表达。我们通过案例研究说明该框架提升的样本效率：双重采样贝尔曼误差最小化算法，以及基于记忆的未来依赖价值函数（FDVF）。在这两种情况下，我们基于信念空间度量的覆盖定义均能导出更紧致的误差界。

0

相关内容

【ICML 2026】面向视野外操作的VLA空间记忆框架SOMA

【ICML 2026】面向视野外操作的VLA空间记忆框架SOMA

专知会员服务

7+阅读 · 5月22日

《分布式多智能体强化学习策略的可解释性研究》

《分布式多智能体强化学习策略的可解释性研究》

专知会员服务

28+阅读 · 2025年11月17日

【NeurIPS2025】一种基于结构信息原理的离线分层扩散框架

【NeurIPS2025】一种基于结构信息原理的离线分层扩散框架

专知会员服务

8+阅读 · 2025年9月30日

【伯克利博士论文】不确定性序列决策:最优性保证，组合学习，以及在机器人技术和生态学中的应用，256页pdf

【伯克利博士论文】不确定性序列决策:最优性保证，组合学习，以及在机器人技术和生态学中的应用，256页pdf

专知会员服务

39+阅读 · 2023年5月17日

【米兰理工学院博士论文】强化学习中环境可配置性的利用，304页pdf

【米兰理工学院博士论文】强化学习中环境可配置性的利用，304页pdf

专知会员服务

30+阅读 · 2023年3月6日

基于模型的强化学习综述

基于模型的强化学习综述

专知会员服务

48+阅读 · 2023年1月9日

【美国DARPA资助、多模态知识图谱构建】《通过深度图生成和推理实现人类活动的多模态语义映射》美国空军研究实验室技术报告

【美国DARPA资助、多模态知识图谱构建】《通过深度图生成和推理实现人类活动的多模态语义映射》美国空军研究实验室技术报告

专知会员服务

75+阅读 · 2022年8月25日

【ICLR2021】一种基于距离度量学习及行为正则化的完全离线的元强化学习方法

专知会员服务

17+阅读 · 2021年2月9日

【教程推荐】可信任深度学习，44页ppt，PDE Based Trustworthy Deep Learning

【教程推荐】可信任深度学习，44页ppt，PDE Based Trustworthy Deep Learning

专知会员服务

37+阅读 · 2020年3月14日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

50+阅读 · 2022年11月16日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【深度度量学习系列】Triplet-loss原理与应用

【深度度量学习系列】Triplet-loss原理与应用

AINLP

61+阅读 · 2020年10月7日

【AAAI 2020论文】一种面向推荐的自适应margin对称度量学习方法

【AAAI 2020论文】一种面向推荐的自适应margin对称度量学习方法

专知

16+阅读 · 2019年12月29日

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

专知

42+阅读 · 2019年4月9日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

论文浅尝 | 基于置信度的知识图谱表示学习框架

论文浅尝 | 基于置信度的知识图谱表示学习框架

开放知识图谱

24+阅读 · 2018年2月27日

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

专知

17+阅读 · 2018年2月11日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于深度学习的高分辨率PolSAR影像暗目标判别

国家自然科学基金

3+阅读 · 2015年12月31日

基于特征学习的空间非合作目标单目视觉位姿测量研究

国家自然科学基金

2+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于多域认知的空天信息网络智能拓扑构建机制基础研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于增量式方法的大规模动态覆盖信息系统知识约简理论和应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于时序空间关系的目标跟踪及遮挡识别研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于关系语义的空间场景信息理解

国家自然科学基金

5+阅读 · 2014年12月31日

基于动态贝叶斯网络的空天态势评估方法研究

国家自然科学基金

45+阅读 · 2014年12月31日

Spatial-Temporal Learning-Based Distributed Routing for Dynamic LEO Satellite Networks

Arxiv

0+阅读 · 5月4日

Differentiable Filtering for Learning Hidden Markov Models

Arxiv

0+阅读 · 4月24日

Distributional Off-Policy Evaluation with Deep Quantile Process Regression

Arxiv

0+阅读 · 4月24日

Synthetic POMDPs to Challenge Memory-Augmented RL: Memory Demand Structure Modeling

Arxiv

0+阅读 · 4月14日

PriPG-RL: Privileged Planner-Guided Reinforcement Learning for Partially Observable Systems with Anytime-Feasible MPC

Arxiv

0+阅读 · 4月9日

DecoVLN: Decoupling Observation, Reasoning, and Correction for Vision-and-Language Navigation

Arxiv

0+阅读 · 3月26日

ProbeMDE: Uncertainty-Guided Active Proprioception for Monocular Depth Estimation in Surgical Robotics

Arxiv

0+阅读 · 3月24日

Node-RF: Learning Generalized Continuous Space-Time Scene Dynamics with Neural ODE-based NeRFs

Arxiv

0+阅读 · 3月12日

Probing Dec-POMDP Reasoning in Cooperative MARL

Arxiv

0+阅读 · 2月24日

PonderLM: Pretraining Language Models to Ponder in Continuous Space

Arxiv

0+阅读 · 2月20日

VIP会员

文章信息

相关主题

部分可观测马尔可夫决策过程

最新内容

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

2+阅读 · 今天14:04

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

2+阅读 · 今天13:54

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

6+阅读 · 今天13:49

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

4+阅读 · 今天13:38

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

5+阅读 · 今天13:37

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

5+阅读 · 今天13:11

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

10+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

5+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

5+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

7+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

5+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

6+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

8+阅读 · 5月29日

“史诗怒火行动”中美军损失的作战飞机

“史诗怒火行动”中美军损失的作战飞机

专知会员服务

6+阅读 · 5月29日

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

专知会员服务

5+阅读 · 5月28日

相关VIP内容

【ICML 2026】面向视野外操作的VLA空间记忆框架SOMA

【ICML 2026】面向视野外操作的VLA空间记忆框架SOMA

专知会员服务

7+阅读 · 5月22日

《分布式多智能体强化学习策略的可解释性研究》

《分布式多智能体强化学习策略的可解释性研究》

专知会员服务

28+阅读 · 2025年11月17日

【NeurIPS2025】一种基于结构信息原理的离线分层扩散框架

【NeurIPS2025】一种基于结构信息原理的离线分层扩散框架

专知会员服务

8+阅读 · 2025年9月30日

【伯克利博士论文】不确定性序列决策:最优性保证，组合学习，以及在机器人技术和生态学中的应用，256页pdf

【伯克利博士论文】不确定性序列决策:最优性保证，组合学习，以及在机器人技术和生态学中的应用，256页pdf

专知会员服务

39+阅读 · 2023年5月17日

【米兰理工学院博士论文】强化学习中环境可配置性的利用，304页pdf

【米兰理工学院博士论文】强化学习中环境可配置性的利用，304页pdf

专知会员服务

30+阅读 · 2023年3月6日

基于模型的强化学习综述

基于模型的强化学习综述

专知会员服务

48+阅读 · 2023年1月9日

【美国DARPA资助、多模态知识图谱构建】《通过深度图生成和推理实现人类活动的多模态语义映射》美国空军研究实验室技术报告

【美国DARPA资助、多模态知识图谱构建】《通过深度图生成和推理实现人类活动的多模态语义映射》美国空军研究实验室技术报告

专知会员服务

75+阅读 · 2022年8月25日

【ICLR2021】一种基于距离度量学习及行为正则化的完全离线的元强化学习方法

专知会员服务

17+阅读 · 2021年2月9日

【教程推荐】可信任深度学习，44页ppt，PDE Based Trustworthy Deep Learning

【教程推荐】可信任深度学习，44页ppt，PDE Based Trustworthy Deep Learning

专知会员服务

37+阅读 · 2020年3月14日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

热门VIP内容

开通专知VIP会员享更多权益服务

美以伊战争：首次人工智能战争——军事自主性困境

《美海军利用扩展现实增强知识流动研究》300页报告

以色列-美国-伊朗战争中的无人机：关键要点

《Palantir任务保障性软件安全标准（MA-S2）》

相关资讯

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

50+阅读 · 2022年11月16日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【深度度量学习系列】Triplet-loss原理与应用

【深度度量学习系列】Triplet-loss原理与应用

AINLP

61+阅读 · 2020年10月7日

【AAAI 2020论文】一种面向推荐的自适应margin对称度量学习方法

【AAAI 2020论文】一种面向推荐的自适应margin对称度量学习方法

专知

16+阅读 · 2019年12月29日

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

专知

42+阅读 · 2019年4月9日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

论文浅尝 | 基于置信度的知识图谱表示学习框架

论文浅尝 | 基于置信度的知识图谱表示学习框架

开放知识图谱

24+阅读 · 2018年2月27日

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

专知

17+阅读 · 2018年2月11日

相关论文

Spatial-Temporal Learning-Based Distributed Routing for Dynamic LEO Satellite Networks

Arxiv

0+阅读 · 5月4日

Differentiable Filtering for Learning Hidden Markov Models

Arxiv

0+阅读 · 4月24日

Distributional Off-Policy Evaluation with Deep Quantile Process Regression

Arxiv

0+阅读 · 4月24日

Synthetic POMDPs to Challenge Memory-Augmented RL: Memory Demand Structure Modeling

Arxiv

0+阅读 · 4月14日

PriPG-RL: Privileged Planner-Guided Reinforcement Learning for Partially Observable Systems with Anytime-Feasible MPC

Arxiv

0+阅读 · 4月9日

DecoVLN: Decoupling Observation, Reasoning, and Correction for Vision-and-Language Navigation

Arxiv

0+阅读 · 3月26日

ProbeMDE: Uncertainty-Guided Active Proprioception for Monocular Depth Estimation in Surgical Robotics

Arxiv

0+阅读 · 3月24日

Node-RF: Learning Generalized Continuous Space-Time Scene Dynamics with Neural ODE-based NeRFs

Arxiv

0+阅读 · 3月12日

Probing Dec-POMDP Reasoning in Cooperative MARL

Arxiv

0+阅读 · 2月24日

PonderLM: Pretraining Language Models to Ponder in Continuous Space

Arxiv

0+阅读 · 2月20日

相关基金

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于深度学习的高分辨率PolSAR影像暗目标判别

国家自然科学基金

3+阅读 · 2015年12月31日

基于特征学习的空间非合作目标单目视觉位姿测量研究

国家自然科学基金

2+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于多域认知的空天信息网络智能拓扑构建机制基础研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于增量式方法的大规模动态覆盖信息系统知识约简理论和应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于时序空间关系的目标跟踪及遮挡识别研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于关系语义的空间场景信息理解

国家自然科学基金

5+阅读 · 2014年12月31日

基于动态贝叶斯网络的空天态势评估方法研究

国家自然科学基金

45+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员