一个智能体的显著特点是能够作出一系列聪明的决策,这些决策被协同执行以达到目标。通过观察人类,我们可以看到,一个精炼的序贯决策制定策略会产生优雅的行为,如平稳驾驶、灵巧的步态和审慎的投资。由于长期视野的信用分配、在指数级大的搜索空间中的探索以及设计合适的奖励函数来鼓励正确行为等问题,学习最优的序贯决策制定策略是具有挑战性的。

在这篇论文中,我们对人类所从事的最自然的学习形式之一感兴趣:从观察中学习。我们希望重点关注的是那些通过观察其他理性智能体所展示的最优行为来实现数据驱动学习的序贯决策制定策略的算法。这个过程主要包括两个步骤:理解和采纳。在第一部分,我们讨论如何设计算法,使得一个智能体能够理解并因此内化理性行为。我们开发了一个主动的世界模型学习算法,使得一个主体智能体能够通过有效地引导其注意力来构建由类人智能体所示的复杂行为的模型。我们进一步探讨了通过逆向强化学习构建其他理性智能体模型的可行性。在第二部分,我们开发了从示范中采纳理性行为的方法。在存在领域不匹配,如形态和视点差异的情况下,我们开发了模仿学习的算法。我们进一步提出了通过逆向强化学习进行模仿的算法,其中我们提出了从复杂行为,如机器人步态的示范中提取潜在奖励的算法。我们希望这些贡献能使我们更接近用机器学习解决真实世界的序贯决策制定问题。

成为VIP会员查看完整内容
38

相关内容

斯坦福大学(StanfordUniversity)位于加利福尼亚州,临近旧金山,占地35平方公里,是美国面积第二大的大学。它被公认为世界上最杰出的大学之一,相比美国东部的常春藤盟校,特别是哈佛大学、耶鲁大学,斯坦福大学虽然历史较短,但无论是学术水准还是其他方面都能与常春藤名校相抗衡。斯坦福大学企业管理研究所和法学院在美国是数一数二的,美国最高法院的9个大法官,有6个是从斯坦福大学的法学院毕业的。
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2009年12月31日
Arxiv
176+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
501+阅读 · 2023年3月31日
Arxiv
83+阅读 · 2023年3月26日
Arxiv
182+阅读 · 2023年3月24日
VIP会员
最新内容
ICML 2026 | SARDI:扩散语言模型的自增强检索
专知会员服务
5+阅读 · 6月6日
《国防领域安全采用大语言模型的战略蓝图》
专知会员服务
8+阅读 · 6月6日
ICML 2026 | 演化选择的因果建模
专知会员服务
8+阅读 · 6月5日
综述|学习式3D表征最新进展与趋势
专知会员服务
7+阅读 · 6月5日
人工智能重塑威慑:算法优势的兴起
专知会员服务
8+阅读 · 6月5日
AgentOps综述:智能体系统运维框架
专知会员服务
17+阅读 · 6月4日
《美陆军最新条令:兵力防护》
专知会员服务
14+阅读 · 6月4日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员