Real-world robot task planning must operate under both stochastic action execution and partial observability, yet constructing Partially Observable Markov Decision Process (POMDP) models for real robotics domains remains difficult and labor-intensive. We introduce PO-PDDL, a symbolic formulation of POMDPs that preserves the relational structure and LLM-friendly syntax of the Planning Domain Definition Language (PDDL), while explicitly modeling partial observability, stochasticity, and beliefs. Building on this formulation, we propose a demonstration-driven pipeline for learning PO-PDDL models. The proposed method reconstructs latent symbolic state trajectories from real-robot execution videos, identifies partial observability via inconsistencies between inferred states and visual observations, and learns stochastic transition and observation models accordingly. The resulting PO-PDDL domains are reusable across tasks and enable online belief-space planning under both perception and execution uncertainty. Experiments on real-world long-horizon manipulation tasks show that our method consistently outperforms existing PDDL and POMDP model-learning approaches, achieving robust task planning under uncertainty with significantly lower planning cost.


翻译:真实世界的机器人任务规划必须在随机动作执行和部分可观察性双重条件下运行,然而为实际机器人领域构建部分可观察马尔可夫决策过程(POMDP)模型仍然困难且劳动密集。我们提出PO-PDDL,一种POMDP的符号化表述,它在保留规划域定义语言(PDDL)的关系结构和利于大语言模型(LLM)解析的语法特性的同时,显式地建模了部分可观察性、随机性和信念状态。基于这一表述,我们提出了一种基于演示驱动流水线的PO-PDDL模型学习方法。该方法从真实机器人执行视频中重建潜在的符号化状态轨迹,通过推断状态与视觉观察之间的不一致性识别部分可观察性,并据此学习随机转移模型和观测模型。最终得到的PO-PDDL域可在不同任务间复用,并在感知和执行不确定性下实现在线信念空间规划。在真实世界长时域操作任务上的实验表明,我们的方法始终优于现有的PDDL和POMDP模型学习方法,以显著更低的规划成本实现了不确定性下的鲁棒任务规划。

0
下载
关闭预览

相关内容

谷歌大脑《自动强化学习》教程,81页ppt!
专知会员服务
68+阅读 · 2022年8月15日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
可解释的机器学习
平均机器
25+阅读 · 2019年2月25日
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
10+阅读 · 6月15日
相关基金
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员