基于视觉观测的POMDP感知信念框架 (Perception-Based Beliefs for POMDPs with Visual Observations) - 专知论文

会员服务 ·

0

不确定 · 分类器 · 不确定性 · 高维 · 感知模型 ·

Perception-Based Beliefs for POMDPs with Visual Observations

翻译：基于视觉观测的POMDP感知信念框架

Miriam Schäfers,Merlijn Krale,Thiago D. Simão,Nils Jansen,Maximilian Weininger

from arxiv, Accepted at AAMAS 2026

Partially observable Markov decision processes (POMDPs) are a principled planning model for sequential decision-making under uncertainty. Yet, real-world problems with high-dimensional observations, such as camera images, remain intractable for traditional belief- and filtering-based solvers. To tackle this problem, we introduce the Perception-based Beliefs for POMDPs framework (PBP), which complements such solvers with a perception model. This model takes the form of an image classifier which maps visual observations to probability distributions over states. PBP incorporates these distributions directly into belief updates, so the underlying solver does not need to reason explicitly over high-dimensional observation spaces. We show that the belief update of PBP coincides with the standard belief update if the image classifier is exact. Moreover, to handle classifier imprecision, we incorporate uncertainty quantification and introduce two methods to adjust the belief update accordingly. We implement PBP using two traditional POMDP solvers and empirically show that (1) it outperforms existing end-to-end deep RL methods and (2) uncertainty quantification improves robustness of PBP against visual corruption.

翻译：部分可观测马尔可夫决策过程（POMDP）是处理不确定性下序贯决策问题的原则性规划模型。然而，对于具有高维观测（例如相机图像）的现实问题，传统的基于信念与滤波的求解器仍难以处理。为解决此问题，我们提出了面向POMDP的感知信念框架（PBP），该框架通过感知模型对传统求解器进行补充。该感知模型采用图像分类器的形式，将视觉观测映射为状态概率分布。PBP将这些分布直接纳入信念更新过程，使得底层求解器无需显式地对高维观测空间进行推理。我们证明当图像分类器精确时，PBP的信念更新与标准信念更新完全一致。此外，为处理分类器的不精确性，我们引入不确定性量化技术，并提出两种相应调整信念更新的方法。我们使用两种传统POMDP求解器实现了PBP，并通过实验证明：（1）其性能优于现有端到端深度强化学习方法；（2）不确定性量化能有效提升PBP对视觉干扰的鲁棒性。

0

相关内容

不确定

【博士论文】面向未知感知的机器学习基础

【博士论文】面向未知感知的机器学习基础

专知会员服务

17+阅读 · 2025年5月22日

面向战场移动威胁的预测模型：利用预测性数据模型打击大规模移动目标

面向战场移动威胁的预测模型：利用预测性数据模型打击大规模移动目标

专知会员服务

41+阅读 · 2024年12月23日

《基于信念的决策建模计算框架》141页

《基于信念的决策建模计算框架》141页

专知会员服务

69+阅读 · 2024年4月27日

【伯克利博士论文】不确定性序列决策:最优性保证，组合学习，以及在机器人技术和生态学中的应用，256页pdf

【伯克利博士论文】不确定性序列决策:最优性保证，组合学习，以及在机器人技术和生态学中的应用，256页pdf

专知会员服务

37+阅读 · 2023年5月17日

基于模型的强化学习综述

基于模型的强化学习综述

专知会员服务

48+阅读 · 2023年1月9日

知识如何用在预训练？北邮等最新《知识增强的预训练语言模型》综述，详述KEPLMs的方法与评估

知识如何用在预训练？北邮等最新《知识增强的预训练语言模型》综述，详述KEPLMs的方法与评估

专知会员服务

58+阅读 · 2022年12月31日

什么是鸟瞰图感知(BEV)?上海AI实验室与商汤等最新《鸟瞰图视觉感知》综述，26页pdf阐述BEV 最新回顾、评价与方法

什么是鸟瞰图感知(BEV)?上海AI实验室与商汤等最新《鸟瞰图视觉感知》综述，26页pdf阐述BEV 最新回顾、评价与方法

专知会员服务

71+阅读 · 2022年9月14日

【MIT】自监督几何感知，22页ppt，Self-supervised Geometric Perception

【MIT】自监督几何感知，22页ppt，Self-supervised Geometric Perception

专知会员服务

23+阅读 · 2021年6月3日

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

专知会员服务

13+阅读 · 2019年11月17日

【IJCAI 2019 Tutorials】基于概率图模型的医疗决策分析（Medical decision analysis with probabilistic graphical models）

【IJCAI 2019 Tutorials】基于概率图模型的医疗决策分析（Medical decision analysis with probabilistic graphical models）

专知会员服务

46+阅读 · 2019年8月10日

论文浅尝 | MCCLK: 一个用于知识感知推荐的多层次的交叉视图对比框架

论文浅尝 | MCCLK: 一个用于知识感知推荐的多层次的交叉视图对比框架

开放知识图谱

10+阅读 · 2022年8月8日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

基于关系网络的视觉建模：有望替代卷积神经网络

基于关系网络的视觉建模：有望替代卷积神经网络

微软研究院AI头条

10+阅读 · 2019年7月12日

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

专知

42+阅读 · 2019年4月9日

CMU 邢波教授2019春季《概率图模型》课程开讲，带你学习PGM（含讲义PPT及视频）

CMU 邢波教授2019春季《概率图模型》课程开讲，带你学习PGM（含讲义PPT及视频）

专知

51+阅读 · 2019年1月25日

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

开放知识图谱

28+阅读 · 2018年6月11日

交互设计理论：视觉感知、认知摩擦、认知负荷和情境认知

交互设计理论：视觉感知、认知摩擦、认知负荷和情境认知

人人都是产品经理

20+阅读 · 2018年5月10日

Maplab：研究视觉惯性建图和定位的开源框架

Maplab：研究视觉惯性建图和定位的开源框架

泡泡机器人SLAM

16+阅读 · 2018年4月4日

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

机器学习研究会

31+阅读 · 2018年1月7日

未知环境下基于单目视觉的移动平台目标跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度信念网络的高光谱遥感影像变化检测方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

结构化压缩感知及其在盲信号处理中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

视觉媒体的结构感知处理与分析模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

压缩感知中正交匹配追踪算法的理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的高分辨率PolSAR影像暗目标判别

国家自然科学基金

3+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

基于环境异质信息的机器觉察与仿生知觉方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向可穿戴设备的压缩感知关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

MedProbCLIP: Probabilistic Adaptation of Vision-Language Foundation Model for Reliable Radiograph-Report Retrieval

Arxiv

0+阅读 · 2月17日

A Survey on Active Feature Acquisition Strategies

Arxiv

0+阅读 · 2月10日

Finite-State Controllers for (Hidden-Model) POMDPs using Deep Reinforcement Learning

Arxiv

0+阅读 · 2月9日

Toward Learning POMDPs Beyond Full-Rank Actions and State Observability

Arxiv

0+阅读 · 2月3日

Toward Learning POMDPs Beyond Full-Rank Actions and State Observability

Arxiv

0+阅读 · 2月1日

Neural Value Iteration

Arxiv

0+阅读 · 1月28日

Towards Pixel-Level VLM Perception via Simple Points Prediction

Arxiv

0+阅读 · 1月27日

Toward Learning POMDPs Beyond Full-Rank Actions and State Observability

Arxiv

0+阅读 · 1月26日

ProbeMDE: Uncertainty-Guided Active Proprioception for Monocular Depth Estimation in Surgical Robotics

Arxiv

0+阅读 · 1月22日

Perception, Understanding and Reasoning, A Multimodal Benchmark for Video Fake News Detection

Arxiv

0+阅读 · 1月19日

VIP会员

文章信息

相关主题

相关VIP内容

【博士论文】面向未知感知的机器学习基础

【博士论文】面向未知感知的机器学习基础

专知会员服务

17+阅读 · 2025年5月22日

面向战场移动威胁的预测模型：利用预测性数据模型打击大规模移动目标

面向战场移动威胁的预测模型：利用预测性数据模型打击大规模移动目标

专知会员服务

41+阅读 · 2024年12月23日

《基于信念的决策建模计算框架》141页

《基于信念的决策建模计算框架》141页

专知会员服务

69+阅读 · 2024年4月27日

【伯克利博士论文】不确定性序列决策:最优性保证，组合学习，以及在机器人技术和生态学中的应用，256页pdf

【伯克利博士论文】不确定性序列决策:最优性保证，组合学习，以及在机器人技术和生态学中的应用，256页pdf

专知会员服务

37+阅读 · 2023年5月17日

基于模型的强化学习综述

基于模型的强化学习综述

专知会员服务

48+阅读 · 2023年1月9日

知识如何用在预训练？北邮等最新《知识增强的预训练语言模型》综述，详述KEPLMs的方法与评估

知识如何用在预训练？北邮等最新《知识增强的预训练语言模型》综述，详述KEPLMs的方法与评估

专知会员服务

58+阅读 · 2022年12月31日

什么是鸟瞰图感知(BEV)?上海AI实验室与商汤等最新《鸟瞰图视觉感知》综述，26页pdf阐述BEV 最新回顾、评价与方法

什么是鸟瞰图感知(BEV)?上海AI实验室与商汤等最新《鸟瞰图视觉感知》综述，26页pdf阐述BEV 最新回顾、评价与方法

专知会员服务

71+阅读 · 2022年9月14日

【MIT】自监督几何感知，22页ppt，Self-supervised Geometric Perception

【MIT】自监督几何感知，22页ppt，Self-supervised Geometric Perception

专知会员服务

23+阅读 · 2021年6月3日

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

专知会员服务

13+阅读 · 2019年11月17日

【IJCAI 2019 Tutorials】基于概率图模型的医疗决策分析（Medical decision analysis with probabilistic graphical models）

【IJCAI 2019 Tutorials】基于概率图模型的医疗决策分析（Medical decision analysis with probabilistic graphical models）

专知会员服务

46+阅读 · 2019年8月10日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

论文浅尝 | MCCLK: 一个用于知识感知推荐的多层次的交叉视图对比框架

论文浅尝 | MCCLK: 一个用于知识感知推荐的多层次的交叉视图对比框架

开放知识图谱

10+阅读 · 2022年8月8日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

基于关系网络的视觉建模：有望替代卷积神经网络

基于关系网络的视觉建模：有望替代卷积神经网络

微软研究院AI头条

10+阅读 · 2019年7月12日

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

专知

42+阅读 · 2019年4月9日

CMU 邢波教授2019春季《概率图模型》课程开讲，带你学习PGM（含讲义PPT及视频）

CMU 邢波教授2019春季《概率图模型》课程开讲，带你学习PGM（含讲义PPT及视频）

专知

51+阅读 · 2019年1月25日

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

开放知识图谱

28+阅读 · 2018年6月11日

交互设计理论：视觉感知、认知摩擦、认知负荷和情境认知

交互设计理论：视觉感知、认知摩擦、认知负荷和情境认知

人人都是产品经理

20+阅读 · 2018年5月10日

Maplab：研究视觉惯性建图和定位的开源框架

Maplab：研究视觉惯性建图和定位的开源框架

泡泡机器人SLAM

16+阅读 · 2018年4月4日

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

机器学习研究会

31+阅读 · 2018年1月7日

相关论文

MedProbCLIP: Probabilistic Adaptation of Vision-Language Foundation Model for Reliable Radiograph-Report Retrieval

Arxiv

0+阅读 · 2月17日

A Survey on Active Feature Acquisition Strategies

Arxiv

0+阅读 · 2月10日

Finite-State Controllers for (Hidden-Model) POMDPs using Deep Reinforcement Learning

Arxiv

0+阅读 · 2月9日

Toward Learning POMDPs Beyond Full-Rank Actions and State Observability

Arxiv

0+阅读 · 2月3日

Toward Learning POMDPs Beyond Full-Rank Actions and State Observability

Arxiv

0+阅读 · 2月1日

Neural Value Iteration

Arxiv

0+阅读 · 1月28日

Towards Pixel-Level VLM Perception via Simple Points Prediction

Arxiv

0+阅读 · 1月27日

Toward Learning POMDPs Beyond Full-Rank Actions and State Observability

Arxiv

0+阅读 · 1月26日

ProbeMDE: Uncertainty-Guided Active Proprioception for Monocular Depth Estimation in Surgical Robotics

Arxiv

0+阅读 · 1月22日

Perception, Understanding and Reasoning, A Multimodal Benchmark for Video Fake News Detection

Arxiv

0+阅读 · 1月19日

相关基金

未知环境下基于单目视觉的移动平台目标跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度信念网络的高光谱遥感影像变化检测方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

结构化压缩感知及其在盲信号处理中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

视觉媒体的结构感知处理与分析模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

压缩感知中正交匹配追踪算法的理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的高分辨率PolSAR影像暗目标判别

国家自然科学基金

3+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

基于环境异质信息的机器觉察与仿生知觉方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向可穿戴设备的压缩感知关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

微信扫码咨询专知VIP会员