Ensuring Logic in the Fog: Sound POMDP Synthesis with LTL Objectives - 专知论文

会员服务 ·

0

部分可观测马尔可夫决策过程 · 马尔可夫决策过程 · 不确定 · 不确定环境 · 时间约束 ·

Ensuring Logic in the Fog: Sound POMDP Synthesis with LTL Objectives

翻译：迷雾中确保逻辑：基于LTL目标的可靠部分可观测马尔可夫决策过程综合

Can Zhou,Yulong Gao,Pian Yu

from arxiv, Accepted by IJCAI-ECAI 2026, the 35th International Joint Conference on Artificial Intelligence

Synthesising autonomous agents that can navigate uncertain environments while adhering to complex temporal constraints remains a fundamental challenge. While Linear Temporal Logic (LTL) provides a rigorous language for specifying such tasks, the inherent undecidability of qualitatively verifying LTL satisfaction in partially observable Markov decision processes renders quantitative synthesis difficult, especially when designing reliable reward signals for approximate solvers. In this paper, we bridge this gap with a novel, sound reward-shaping mechanism that dynamically generates belief-dependent rewards grounded in certified LTL satisfaction. By integrating this mechanism into an enhanced Monte Carlo Planning framework, we empower agents to navigate the `fog' of partial observability with a search process focused on maximising verifiable success. Our experiments demonstrate that this approach not only thrives in scenarios where existing solvers fail but also maintains effectiveness and scalability across diverse benchmark domains.

翻译：在不确定环境中导航并遵守复杂时间约束的自主智能体合成仍是一项根本性挑战。尽管线性时序逻辑（Linear Temporal Logic, LTL）为指定此类任务提供了严谨语言，但在部分可观测马尔可夫决策过程中对LTL满足性进行定性验证的固有不可判定性，使得定量综合（尤其是为近似求解器设计可靠奖励信号）变得困难。本文通过提出一种新颖且可靠的奖励塑造机制来填补这一空白，该机制能动态生成基于可认证LTL满足性的信念依赖奖励。通过将该机制集成到增强型蒙特卡洛规划框架中，我们使智能体能够在部分可观测的"迷雾"中导航，同时其搜索过程聚焦于最大化可验证的成功概率。实验表明，该方法不仅在现有求解器失效的场景中表现出色，而且在多样化基准领域间保持有效性和可扩展性。

0

相关内容

部分可观测马尔可夫决策过程

部分可观测马尔可夫决策过程

《自主巡飞弹药系统量子逻辑框架：一种基于不确定模糊集的方法》

《自主巡飞弹药系统量子逻辑框架：一种基于不确定模糊集的方法》

专知会员服务

12+阅读 · 6月5日

《战争迷雾条件下军事决策神经网络架构设计》最新119页报告

《战争迷雾条件下军事决策神经网络架构设计》最新119页报告

专知会员服务

37+阅读 · 3月9日

《多智能体大语言模型系统的可靠决策研究》

《多智能体大语言模型系统的可靠决策研究》

专知会员服务

41+阅读 · 2月2日

《自适应鲁棒马尔可夫决策过程：协同作战飞机（CCA）对抗性监视任务应用》44页技术报告

《自适应鲁棒马尔可夫决策过程：协同作战飞机（CCA）对抗性监视任务应用》44页技术报告

专知会员服务

27+阅读 · 2025年12月9日

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

专知会员服务

28+阅读 · 2025年11月17日

《分布式多智能体强化学习策略的可解释性研究》

《分布式多智能体强化学习策略的可解释性研究》

专知会员服务

30+阅读 · 2025年11月17日

《空战战术中多智能体强化学习战略决策的可解释性研究》最新报告

《空战战术中多智能体强化学习战略决策的可解释性研究》最新报告

专知会员服务

43+阅读 · 2025年9月12日

【伯克利博士论文】不确定性序列决策:最优性保证，组合学习，以及在机器人技术和生态学中的应用，256页pdf

【伯克利博士论文】不确定性序列决策:最优性保证，组合学习，以及在机器人技术和生态学中的应用，256页pdf

专知会员服务

39+阅读 · 2023年5月17日

《多智能体马尔可夫决策过程：问题和算法的分类》47页长综述

《多智能体马尔可夫决策过程：问题和算法的分类》47页长综述

专知会员服务

43+阅读 · 2023年3月13日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知会员服务

255+阅读 · 2022年11月15日

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

39+阅读 · 2023年4月13日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

52+阅读 · 2022年11月16日

推荐！【中文版】美国陆军《用于决策动力学、欺骗和博弈论的新型人工智能决策辅助工具》52页技术总结报告

推荐！【中文版】美国陆军《用于决策动力学、欺骗和博弈论的新型人工智能决策辅助工具》52页技术总结报告

专知

84+阅读 · 2022年7月7日

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

专知

17+阅读 · 2021年1月18日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

如何用机器学习精准辨别“背景”和“目标”

如何用机器学习精准辨别“背景”和“目标”

论智

10+阅读 · 2018年10月22日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

机器学习研究会

31+阅读 · 2018年1月7日

马尔科夫跳跃正系统的稳定分析与控制综合

国家自然科学基金

0+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

混合交通环境中自动驾驶汽车安全可达性分析与优化控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

逻辑错误屏蔽的近似电路逻辑综合多目标优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

基于中智集的模糊多属性决策理论、方法与应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

PO-PDDL: Learning Symbolic POMDPs from Visual Demonstrations for Robot Planning Under Uncertainty

Arxiv

0+阅读 · 6月14日

Probing Dec-POMDP Reasoning in Cooperative MARL

Arxiv

0+阅读 · 6月13日

Sound and Complete Neurosymbolic Reasoning with LLM-Grounded Interpretations

Arxiv

0+阅读 · 6月7日

pacSTL: PAC-Bounded Signal Temporal Logic from Data-Driven Reachability Analysis

Arxiv

0+阅读 · 6月6日

Spatiotemporal Robustness of Temporal Logic Tasks using Multi-Objective Reasoning

Arxiv

0+阅读 · 5月18日

ocLTL: LTL Realizability and Synthesis Modulo ω-Categorical Structures

Arxiv

0+阅读 · 5月16日

Context, Reasoning, and Hierarchy: A Cost-Performance Study of Compound LLM Agent Design in an Adversarial POMDP

Arxiv

0+阅读 · 5月15日

Fast Computation of Conditional Probabilities in MDPs and Markov Chain Families

Arxiv

0+阅读 · 5月13日

MathConstraint: Automated Generation of Verified Combinatorial Reasoning Instances for LLMs

Arxiv

0+阅读 · 5月8日

Optimal Posterior Sampling for Policy Identification in Tabular Markov Decision Processes

Arxiv

0+阅读 · 5月5日

VIP会员

文章信息

相关主题

部分可观测马尔可夫决策过程

马尔可夫决策过程

不确定环境

最新内容

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 今天4:35

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

3+阅读 · 今天4:24

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 今天4:18

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 今天4:15

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 今天4:08

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

“史诗怒火”行动：现代多域作战的重要节点

“史诗怒火”行动：现代多域作战的重要节点

专知会员服务

8+阅读 · 7月30日

《下一代无线网络中的多无人机通信资源管理》

《下一代无线网络中的多无人机通信资源管理》

专知会员服务

8+阅读 · 7月30日

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

专知会员服务

9+阅读 · 7月30日

《人机协同在安全关键型操作决策中的应用》120页

《人机协同在安全关键型操作决策中的应用》120页

专知会员服务

8+阅读 · 7月30日

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

专知会员服务

6+阅读 · 7月30日

相关VIP内容

《自主巡飞弹药系统量子逻辑框架：一种基于不确定模糊集的方法》

《自主巡飞弹药系统量子逻辑框架：一种基于不确定模糊集的方法》

专知会员服务

12+阅读 · 6月5日

《战争迷雾条件下军事决策神经网络架构设计》最新119页报告

《战争迷雾条件下军事决策神经网络架构设计》最新119页报告

专知会员服务

37+阅读 · 3月9日

《多智能体大语言模型系统的可靠决策研究》

《多智能体大语言模型系统的可靠决策研究》

专知会员服务

41+阅读 · 2月2日

《自适应鲁棒马尔可夫决策过程：协同作战飞机（CCA）对抗性监视任务应用》44页技术报告

《自适应鲁棒马尔可夫决策过程：协同作战飞机（CCA）对抗性监视任务应用》44页技术报告

专知会员服务

27+阅读 · 2025年12月9日

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

专知会员服务

28+阅读 · 2025年11月17日

《分布式多智能体强化学习策略的可解释性研究》

《分布式多智能体强化学习策略的可解释性研究》

专知会员服务

30+阅读 · 2025年11月17日

《空战战术中多智能体强化学习战略决策的可解释性研究》最新报告

《空战战术中多智能体强化学习战略决策的可解释性研究》最新报告

专知会员服务

43+阅读 · 2025年9月12日

【伯克利博士论文】不确定性序列决策:最优性保证，组合学习，以及在机器人技术和生态学中的应用，256页pdf

【伯克利博士论文】不确定性序列决策:最优性保证，组合学习，以及在机器人技术和生态学中的应用，256页pdf

专知会员服务

39+阅读 · 2023年5月17日

《多智能体马尔可夫决策过程：问题和算法的分类》47页长综述

《多智能体马尔可夫决策过程：问题和算法的分类》47页长综述

专知会员服务

43+阅读 · 2023年3月13日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知会员服务

255+阅读 · 2022年11月15日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身技术前沿综述：物理机理、工程实践与战略展望

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

相关资讯

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

39+阅读 · 2023年4月13日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

52+阅读 · 2022年11月16日

推荐！【中文版】美国陆军《用于决策动力学、欺骗和博弈论的新型人工智能决策辅助工具》52页技术总结报告

推荐！【中文版】美国陆军《用于决策动力学、欺骗和博弈论的新型人工智能决策辅助工具》52页技术总结报告

专知

84+阅读 · 2022年7月7日

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

专知

17+阅读 · 2021年1月18日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

如何用机器学习精准辨别“背景”和“目标”

如何用机器学习精准辨别“背景”和“目标”

论智

10+阅读 · 2018年10月22日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

机器学习研究会

31+阅读 · 2018年1月7日

相关论文

PO-PDDL: Learning Symbolic POMDPs from Visual Demonstrations for Robot Planning Under Uncertainty

Arxiv

0+阅读 · 6月14日

Probing Dec-POMDP Reasoning in Cooperative MARL

Arxiv

0+阅读 · 6月13日

Sound and Complete Neurosymbolic Reasoning with LLM-Grounded Interpretations

Arxiv

0+阅读 · 6月7日

pacSTL: PAC-Bounded Signal Temporal Logic from Data-Driven Reachability Analysis

Arxiv

0+阅读 · 6月6日

Spatiotemporal Robustness of Temporal Logic Tasks using Multi-Objective Reasoning

Arxiv

0+阅读 · 5月18日

ocLTL: LTL Realizability and Synthesis Modulo ω-Categorical Structures

Arxiv

0+阅读 · 5月16日

Context, Reasoning, and Hierarchy: A Cost-Performance Study of Compound LLM Agent Design in an Adversarial POMDP

Arxiv

0+阅读 · 5月15日

Fast Computation of Conditional Probabilities in MDPs and Markov Chain Families

Arxiv

0+阅读 · 5月13日

MathConstraint: Automated Generation of Verified Combinatorial Reasoning Instances for LLMs

Arxiv

0+阅读 · 5月8日

Optimal Posterior Sampling for Policy Identification in Tabular Markov Decision Processes

Arxiv

0+阅读 · 5月5日

相关基金

马尔科夫跳跃正系统的稳定分析与控制综合

国家自然科学基金

0+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

混合交通环境中自动驾驶汽车安全可达性分析与优化控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

逻辑错误屏蔽的近似电路逻辑综合多目标优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

基于中智集的模糊多属性决策理论、方法与应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员