Large language models (LLMs) have emerged as the dominant paradigm for robotic task planning using natural language instructions. However, trained on general internet data, LLMs are not inherently aligned with the embodiment, skill sets, and limitations of real-world robotic systems. Inspired by the emerging paradigm of verbal reinforcement learning-where LLM agents improve through self-reflection and few-shot learning without parameter updates-we introduce PragmaBot, a framework that enables robots to learn task planning through real-world experience. PragmaBot employs a vision-language model (VLM) as the robot's "brain" and "eye", allowing it to visually evaluate action outcomes and self-reflect on failures. These reflections are stored in a short-term memory (STM), enabling the robot to quickly adapt its behavior during ongoing tasks. Upon task completion, the robot summarizes the lessons learned into its long-term memory (LTM). When facing new tasks, it can leverage retrieval-augmented generation (RAG) to plan more grounded action sequences by drawing on relevant past experiences and knowledge. Experiments on four challenging robotic tasks show that STM-based self-reflection increases task success rates from 35% to 84%, with emergent intelligent object interactions. In 12 real-world scenarios (including eight previously unseen tasks), the robot effectively learns from the LTM and improves single-trial success rates from 22% to 80%, with RAG outperforming naive prompting. These results highlight the effectiveness and generalizability of PragmaBot. Project webpage: https://pragmabot.github.io/


翻译:大型语言模型已成为利用自然语言指令进行机器人任务规划的主流范式。然而,由于在通用互联网数据上训练,大型语言模型本质上并未与真实世界机器人系统的具身性、技能集和局限性对齐。受新兴的言语强化学习范式启发——在该范式中大型语言模型智能体通过无需参数更新的自我反思和少样本学习实现改进——我们提出了PragmaBot框架,使机器人能够通过真实世界经验学习任务规划。PragmaBot采用视觉语言模型作为机器人的“大脑”和“眼睛”,使其能够视觉评估行动结果并对失败进行自我反思。这些反思存储于短期记忆中,使机器人能够在执行任务过程中快速调整行为。任务完成后,机器人将所学经验总结至长期记忆。面对新任务时,机器人可通过检索增强生成技术,利用相关历史经验和知识规划更贴合实际的动作序列。在四项具有挑战性的机器人任务上的实验表明,基于短期记忆的自我反思将任务成功率从35%提升至84%,并涌现出智能化的物体交互行为。在12个真实场景(包含8个先前未见任务)中,机器人能有效从长期记忆学习,将单次尝试成功率从22%提升至80%,且检索增强生成方法优于原始提示策略。这些结果凸显了PragmaBot的有效性和泛化能力。项目网页:https://pragmabot.github.io/

0
下载
关闭预览

相关内容

机器人(英语:Robot)包括一切模拟人类行为或思想与模拟其他生物的机械(如机器狗,机器猫等)。狭义上对机器人的定义还有很多分类法及争议,有些电脑程序甚至也被称为机器人。在当代工业中,机器人指能自动运行任务的人造机器设备,用以取代或协助人类工作,一般会是机电设备,由计算机程序或是电子电路控制。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
机器人领域的多任务泛化研究
专知会员服务
16+阅读 · 1月14日
【UIUC博士论文】《从视频中进行机器人学习》
专知会员服务
25+阅读 · 2024年12月20日
《基础模型在现实世界机器人应用》综述
专知会员服务
56+阅读 · 2024年2月11日
国家自然科学基金
13+阅读 · 2016年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
50+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Arxiv
0+阅读 · 1月29日
VIP会员
相关基金
国家自然科学基金
13+阅读 · 2016年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
50+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员