This paper introduces Knowledge Graph based Massively Multi-task Model-based Policy Optimization (KG-M3PO), a framework for multi-task robotic manipulation in partially observable settings that unifies Perception, Knowledge, and Policy. The method augments egocentric vision with an online 3D scene graph that grounds open-vocabulary detections into a metric, relational representation. A dynamic-relation mechanism updates spatial, containment, and affordance edges at every step, and a graph neural encoder is trained end-to-end through the RL objective so that relational features are shaped directly by control performance. Multiple observation modalities (visual, proprioceptive, linguistic, and graph-based) are encoded into a shared latent space, upon which the RL agent operates to drive the control loop. The policy conditions on lightweight graph queries alongside visual and proprioceptive inputs, yielding a compact, semantically informed state for decision making. Experiments on a suite of manipulation tasks with occlusions, distractors, and layout shifts demonstrate consistent gains over strong baselines: the knowledge-conditioned agent achieves higher success rates, improved sample efficiency, and stronger generalization to novel objects and unseen scene configurations. These results support the premise that structured, continuously maintained world knowledge is a powerful inductive bias for scalable, generalizable manipulation: when the knowledge module participates in the RL computation graph, relational representations align with control, enabling robust long-horizon behavior under partial observability.


翻译:本文提出基于知识图谱的大规模多任务模型化策略优化(KG-M3PO)框架,用于部分可观测环境下的多任务机器人操控,该框架统一了感知、知识与策略。该方法通过在线三维场景图增强第一人称视觉,将开放词汇检测结果锚定到度量关系表示中。动态关系机制在每一步更新空间、包含和功能边,并通过强化学习目标进行端到端训练图神经网络编码器,使关系特征直接受控制性能塑造。多种观测模态(视觉、本体感知、语言和图结构)被编码到共享潜在空间,强化学习智能体在此空间运行以驱动控制循环。策略以轻量级图查询结合视觉和本体感知输入为条件,生成紧凑且包含语义信息的状态用于决策。在包含遮挡、干扰物和布局变化的系列操控任务中的实验表明,该方法相比强基线获得了一致提升:知识条件智能体实现了更高成功率、更优样本效率,以及对新物体和未见场景配置的更强泛化能力。这些结果支持了一个前提:结构化、持续维护的世界知识是可扩展、可泛化操控的有力归纳偏置——当知识模块参与强化学习计算图时,关系表示与控制对齐,从而在部分可观测条件下实现鲁棒的长期行为。

0
下载
关闭预览

相关内容

多模态知识图谱构建技术及其在军事领域的应用综述
专知会员服务
45+阅读 · 2024年12月6日
基于多智能体强化学习的协同目标分配
专知会员服务
141+阅读 · 2023年9月5日
基于多智能体深度强化学习的体系任务分配方法
专知会员服务
158+阅读 · 2023年5月4日
《多任务学习》最新综述论文,20页pdf
专知会员服务
127+阅读 · 2021年4月6日
最新《多任务学习》综述,39页pdf
专知会员服务
266+阅读 · 2020年7月10日
最新《多任务学习》综述,39页pdf
专知
28+阅读 · 2020年7月10日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
半监督多任务学习:Semisupervised Multitask Learning
我爱读PAMI
18+阅读 · 2018年4月29日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Arxiv
11+阅读 · 2023年5月15日
Arxiv
19+阅读 · 2018年3月28日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员