Robotic manipulation benefits from foundation models that describe goals, but today's agents still lack a principled way to learn from their own mistakes. We ask whether natural language can serve as feedback, an error-reasoning signal that helps embodied agents diagnose what went wrong and correct course. We introduce LAGEA (Language Guided Embodied Agents), a framework that turns episodic, schema-constrained reflections from a vision language model (VLM) into temporally grounded guidance for reinforcement learning. LAGEA summarizes each attempt in concise language, localizes the decisive moments in the trajectory, aligns feedback with visual state in a shared representation, and converts goal progress and feedback agreement into bounded, step-wise shaping rewards whose influence is modulated by an adaptive, failure-aware coefficient. This design yields dense signals early when exploration needs direction and gracefully recedes as competence grows. On the Meta-World MT10 and Robotic Fetch embodied manipulation benchmark, LAGEA improves average success over the state-of-the-art (SOTA) methods by 9.0% on random goals, 5.3% on fixed goals, and 17% on fetch tasks, while converging faster. These results support our hypothesis: language, when structured and grounded in time, is an effective mechanism for teaching robots to self-reflect on mistakes and make better choices.


翻译:机器人操作得益于描述目标的基础模型,但现今的智能体仍缺乏一种从自身错误中进行学习的系统化方法。我们探讨自然语言能否作为反馈——一种帮助具身智能体诊断错误原因并修正路径的误差推理信号。我们提出了LAGEA(语言引导具身智能体)框架,该框架将来自视觉语言模型(VLM)的片段化、模式受限的反思转化为具有时间根基的强化学习指导。LAGEA以简洁语言总结每次尝试,定位轨迹中的关键决策时刻,在共享表征中将反馈与视觉状态对齐,并将目标进展与反馈一致性转化为有界的、逐步成形的奖励,其影响力通过一个自适应的、故障感知系数进行调节。该设计在探索需要引导的早期阶段产生密集信号,并随着能力提升而优雅地减弱。在Meta-World MT10和Robotic Fetch具身操作基准测试中,LAGEA相比最先进(SOTA)方法,在随机目标上平均成功率提升9.0%,在固定目标上提升5.3%,在抓取任务上提升17%,同时收敛速度更快。这些结果支持了我们的假设:当语言被结构化并基于时间进行根基化时,它能成为教导机器人对错误进行自我反思并做出更好选择的有效机制。

0
下载
关闭预览

相关内容

智能体工程(Agent Engineering)
专知会员服务
37+阅读 · 2025年12月31日
面向具身操作的视觉-语言-动作模型综述
专知会员服务
28+阅读 · 2025年8月23日
【NLP】万字长文概述NLP中的深度学习技术
产业智能官
18+阅读 · 2019年7月7日
NLG ≠ 机器写作 | 专家专栏
量子位
13+阅读 · 2018年9月10日
基于 rasa 搭建中文对话系统 | 公开课
AI研习社
16+阅读 · 2018年1月12日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
2+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
4+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
3+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员