While Large Language Models (LLMs) have demonstrated strong zero-shot reasoning capabilities, their deployment as embodied agents still faces fundamental challenges in long-horizon planning. Unlike open-ended text generation, embodied agents must decompose high-level intent into actionable sub-goals while strictly adhering to the logic of a dynamic, observed environment. Standard LLM planners frequently fail to maintain strategy coherence over extended horizons due to context window limitation or hallucinate transitions that violate constraints. We propose GiG, a novel planning framework that structures embodied agents' memory using a Graph-in-Graph architecture. Our approach employs a Graph Neural Network (GNN) to encode environmental states into embeddings, organizing these embeddings into action-connected execution trace graphs within an experience memory bank. By clustering these graph embeddings, the framework enables retrieval of structure-aware priors, allowing agents to ground current decisions in relevant past structural patterns. Furthermore, we introduce a novel bounded lookahead module that leverages symbolic transition logic to enhance the agents' planning capabilities through the grounded action projection. We evaluate our framework on three embodied planning benchmarks-Robotouille Synchronous, Robotouille Asynchronous, and ALFWorld. Our method outperforms state-of-the-art baselines, achieving Pass@1 performance gains of up to 22% on Robotouille Synchronous, 37% on Asynchronous, and 15% on ALFWorld with comparable or lower computational cost.


翻译:尽管大型语言模型(LLM)已展现出强大的零样本推理能力,但其作为具身智能体的部署在长时程规划方面仍面临根本性挑战。与开放式文本生成不同,具身智能体必须将高层意图分解为可执行的子目标,同时严格遵循动态观测环境的逻辑。标准LLM规划器常因上下文窗口限制而难以在长时程中保持策略一致性,或产生违反约束的虚假状态转移。本文提出GiG,一种新颖的规划框架,通过图内图架构构建具身智能体的记忆系统。该方法利用图神经网络(GNN)将环境状态编码为嵌入向量,并将这些嵌入组织为行动关联的执行轨迹图,存储于经验记忆库中。通过对图嵌入进行聚类,该框架能够检索具有结构感知的先验知识,使智能体能够基于相关的历史结构模式进行当前决策。此外,我们引入了一种新颖的有界前瞻模块,该模块利用符号化转移逻辑,通过基于现实约束的行动推演来增强智能体的规划能力。我们在三个具身规划基准测试——Robotouille Synchronous、Robotouille Asynchronous和ALFWorld上评估了本框架。实验表明,我们的方法在计算成本相当或更低的条件下,显著优于现有先进基线模型,在Robotouille Synchronous上Pass@1指标提升达22%,在Asynchronous版本上提升37%,在ALFWorld上提升15%。

0
下载
关闭预览

相关内容

PlanGenLLMs:大型语言模型规划能力的最新综述
专知会员服务
33+阅读 · 2025年5月18日
大规模语言模型在自动规划中的应用综述
专知会员服务
35+阅读 · 2025年2月22日
基于大语言模型的复杂任务自主规划处理框架
专知会员服务
101+阅读 · 2024年4月12日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
36+阅读 · 2013年12月31日
国家自然科学基金
43+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
36+阅读 · 2013年12月31日
国家自然科学基金
43+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员