As the world of agentic artificial intelligence applied to robotics evolves, the need for agents capable of building and retrieving memories and observations efficiently is increasing. Robots operating in complex environments must build memory structures to enable useful human-robot interactions by leveraging the mnemonic representation of the current operating context. People interacting with robots may expect the embodied agent to provide information about locations, events, or objects, which requires the agent to provide precise answers within human-like inference times to be perceived as responsive. We propose the Embodied Light Graph Retrieval Agent (EmbodiedLGR-Agent), a visual-language model (VLM)-driven agent architecture that constructs dense and efficient representations of robot operating environments. EmbodiedLGR-Agent directly addresses the need for an efficient memory representation of the environment by providing a hybrid building-retrieval approach built on parameter-efficient VLMs that store low-level information about objects and their positions in a semantic graph, while retaining high-level descriptions of the observed scenes with a traditional retrieval-augmented architecture. EmbodiedLGR-Agent is evaluated on the popular NaVQA dataset, achieving state-of-the-art performance in inference and querying times for embodied agents, while retaining competitive accuracy on the global task relative to the current state-of-the-art approaches. Moreover, EmbodiedLGR-Agent was successfully deployed on a physical robot, showing practical utility in real-world contexts through human-robot interaction, while running the visual-language model and the building-retrieval pipeline locally.


翻译:随着应用于机器人领域的智能体人工智能不断发展,对能够高效构建与检索记忆及观测的智能体的需求日益增长。在复杂环境中运行的机器人必须构建记忆结构,通过利用当前操作环境的记忆表征来实现有效的人机交互。与机器人交互的人类可能期望具身智能体提供关于位置、事件或物体的信息,这要求智能体在类人推理时间内给出精确答案,以被视为具有响应性。我们提出具身轻量图检索智能体(EmbodiedLGR-Agent),一种视觉语言模型(VLM)驱动的智能体架构,能够构建机器人操作环境的致密高效表征。EmbodiedLGR-Agent通过提供基于参数高效VLM的混合构建-检索方法,直接解决了环境高效记忆表征的需求:在语义图中存储物体及其位置的底层信息,同时通过传统检索增强架构保留观察场景的高层描述。EmbodiedLGR-Agent在主流NaVQA数据集上进行了评估,在具身智能体的推理与查询时间上达到了最先进水平,同时在全局任务上保持了与当前最先进方法相当的准确率。此外,EmbodiedLGR-Agent已成功部署于实体机器人,通过人机交互展示了在现实场景中的实用价值,且视觉语言模型与构建-检索流水线均可在本地运行。

0
下载
关闭预览

相关内容

具身智能中的心理世界建模:深度综述
专知会员服务
39+阅读 · 1月10日
AI 智能体系统:体系架构、应用场景及评估范式
AI智能体时代中的记忆:形式、功能与动态综述
专知会员服务
36+阅读 · 2025年12月16日
基于多模态大模型的具身智能体研究进展与展望
专知会员服务
27+阅读 · 2025年7月2日
机器人:具身智能大模型
专知会员服务
54+阅读 · 2025年4月4日
【牛津大学博士论文】深度具身智能体的空间推理与规划
具身智能:突破人机边界,AI产业的下一站
专知会员服务
88+阅读 · 2024年5月18日
面向人工智能的计算机体系结构
计算机研究与发展
14+阅读 · 2019年6月6日
报名 | 让机器读懂你的意图——人体姿态估计入门
人工智能头条
10+阅读 · 2017年9月19日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
VIP会员
相关主题
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
具身智能中的心理世界建模:深度综述
专知会员服务
39+阅读 · 1月10日
AI 智能体系统:体系架构、应用场景及评估范式
AI智能体时代中的记忆:形式、功能与动态综述
专知会员服务
36+阅读 · 2025年12月16日
基于多模态大模型的具身智能体研究进展与展望
专知会员服务
27+阅读 · 2025年7月2日
机器人:具身智能大模型
专知会员服务
54+阅读 · 2025年4月4日
【牛津大学博士论文】深度具身智能体的空间推理与规划
具身智能:突破人机边界,AI产业的下一站
专知会员服务
88+阅读 · 2024年5月18日
相关基金
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员