Embodied LLMs endow robots with high-level task reasoning, but they cannot reflect on what went wrong or why, turning deployment into a sequence of independent trials where mistakes repeat rather than accumulate into experience. Drawing upon human reflective practitioners, we introduce Reflective Test-Time Planning, which integrates two modes of reflection: \textit{reflection-in-action}, where the agent uses test-time scaling to generate and score multiple candidate actions using internal reflections before execution; and \textit{reflection-on-action}, which uses test-time training to update both its internal reflection model and its action policy based on external reflections after execution. We also include retrospective reflection, allowing the agent to re-evaluate earlier decisions and perform model updates with hindsight for proper long-horizon credit assignment. Experiments on our newly-designed Long-Horizon Household benchmark and MuJoCo Cupboard Fitting benchmark show significant gains over baseline models, with ablative studies validating the complementary roles of reflection-in-action and reflection-on-action. Qualitative analyses, including real-robot trials, highlight behavioral correction through reflection.


翻译:具身化大语言模型赋予机器人高层次的任务推理能力,但它们无法反思错误及其成因,导致部署过程成为一系列独立的试错,错误不断重复而非累积为经验。借鉴人类反思实践者的理念,我们提出了反思性测试时规划,该方法整合了两种反思模式:\textit{行动中反思},智能体在行动前通过测试时缩放,利用内部反思生成并评估多个候选行动;以及\textit{行动后反思},智能体在行动后基于外部反思,通过测试时训练更新其内部反思模型与行动策略。我们还引入了追溯性反思,使智能体能够重新评估先前的决策,并利用后见之明进行模型更新,以实现有效的长时程信用分配。在我们新设计的长时程家庭任务基准与MuJoCo橱柜装配基准上的实验表明,该方法相较于基线模型取得了显著提升,消融研究验证了行动中反思与行动后反思的互补作用。包括真实机器人试验在内的定性分析,突显了通过反思实现的行为修正。

0
下载
关闭预览

相关内容

大模型错因诊断分析
专知会员服务
9+阅读 · 4月9日
数据驱动的具身学习探索
专知会员服务
18+阅读 · 2025年2月26日
大语言模型视角下的智能规划方法综述
专知会员服务
137+阅读 · 2024年4月20日
大模型工具学习探索
专知会员服务
168+阅读 · 2023年12月28日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
【泡泡图灵智库】密集相关的自监督视觉描述学习(RAL)
泡泡机器人SLAM
11+阅读 · 2018年10月6日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
“史诗怒火”行动中的无人机与反无人机作战
专知会员服务
11+阅读 · 5月25日
Claw AI Lab:从自动写论文到交互式AI研究实验室
专知会员服务
7+阅读 · 5月24日
美以伊冲突中的无人机反防空作战
专知会员服务
9+阅读 · 5月23日
安杜里尔与Meta研发军用智能眼镜的内幕
专知会员服务
7+阅读 · 5月22日
超越步调威胁:整合人工智能以加速指挥决策
专知会员服务
15+阅读 · 5月22日
Nature三连发AI自主科学发现论文
专知会员服务
9+阅读 · 5月21日
相关VIP内容
大模型错因诊断分析
专知会员服务
9+阅读 · 4月9日
数据驱动的具身学习探索
专知会员服务
18+阅读 · 2025年2月26日
大语言模型视角下的智能规划方法综述
专知会员服务
137+阅读 · 2024年4月20日
大模型工具学习探索
专知会员服务
168+阅读 · 2023年12月28日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员