Inverse Reinforcement Learning aims to recover reward models from expert demonstrations, but traditional methods yield black-box models that are difficult to interpret and debug. In this work, we introduce GRACE (Generating Rewards As CodE), a method for using Large Language Models within an evolutionary search to reverse-engineer an interpretable, code-based reward function directly from expert trajectories. The resulting reward function is executable code that can be inspected and verified. We empirically validate GRACE on the MuJoCo, BabyAI and AndroidWorld benchmarks, where it efficiently learns highly accurate rewards, even in complex, multi-task settings. Further, we demonstrate that the resulting reward leads to strong policies, compared to both competitive Imitation Learning and online RL approaches with ground-truth rewards. Finally, we show that GRACE is able to build complex reward APIs in multi-task setups.


翻译:逆强化学习旨在从专家演示中恢复奖励模型,但传统方法产生难以解释和调试的黑箱模型。本研究提出GRACE(以代码形式生成奖励),该方法在进化搜索中利用大语言模型,直接从专家轨迹逆向工程出可解释的、基于代码的奖励函数。生成的奖励函数为可执行代码,可供检查与验证。我们在MuJoCo、BabyAI和AndroidWorld基准测试中对GRACE进行了实证验证,结果表明即使在复杂的多任务场景中,该方法也能高效学习高精度奖励函数。进一步实验证明,相较于使用真实奖励的竞争性模仿学习与在线强化学习方法,GRACE生成的奖励能引导出更优策略。最后,我们展示了GRACE在多任务配置中构建复杂奖励API的能力。

0
下载
关闭预览

相关内容

代码(Code)是专知网的一个重要知识资料文档板块,旨在整理收录论文源代码、复现代码,经典工程代码等,便于用户查阅下载使用。
【教程】通过人类反馈的强化学习,77页ppt
专知会员服务
38+阅读 · 2024年10月5日
逆强化学习算法、理论与应用研究综述
专知会员服务
63+阅读 · 2023年8月2日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
基于逆强化学习的示教学习方法综述
计算机研究与发展
16+阅读 · 2019年2月25日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2月15日
VIP会员
最新内容
《人工智能赋能电磁战》(报告)
专知会员服务
0+阅读 · 49分钟前
【CMU博士论文】迈向可扩展的开放世界三维感知
专知会员服务
0+阅读 · 今天14:06
前馈式三维场景建模
专知会员服务
0+阅读 · 今天14:03
(译文)认知战:以士兵为目标,塑造战略
专知会员服务
2+阅读 · 今天3:12
(中文)认知战的本体论基础(2026报告)
专知会员服务
18+阅读 · 今天1:45
美空军条令(2026):外国对内防御
专知会员服务
3+阅读 · 今天1:32
相关VIP内容
【教程】通过人类反馈的强化学习,77页ppt
专知会员服务
38+阅读 · 2024年10月5日
逆强化学习算法、理论与应用研究综述
专知会员服务
63+阅读 · 2023年8月2日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员