We introduce Unsupervised Partner Design (UPD), a population-free multi-agent reinforcement learning method for robust ad-hoc teamwork. UPD generates training partners on-the-fly and selects them adaptively based on a learnability criterion, removing the need for pre-trained partner populations or manual parameter tuning. We show that this simple mechanism enables effective partner diversity and can be extended to joint partner-environment selection when a procedural level generator is available. Across Level-Based Foraging, Overcooked-AI, and the Overcooked Generalisation Challenge, UPD consistently achieves strong performance compared to both population-based and population-free baselines. In a human-AI user study, agents trained with UPD achieve higher returns and are rated as more adaptive, more human-like, and less frustrating than all evaluated baseline methods.


翻译:我们提出无监督搭档设计(Unsupervised Partner Design, UPD),一种无需群体预设的多智能体强化学习方法,用于鲁棒的临时团队协作。UPD实时生成训练搭档,并基于可学习性准则自适应选择搭档,无需预训练的搭档群体或手动参数调整。我们证明,这一简单机制能够有效实现搭档多样性,并在存在程序化关卡生成器时,可扩展至联合搭档-环境选择。在基于层级的觅食(Level-Based Foraging)、Overcooked-AI及Overcooked通用挑战(Overcooked Generalisation Challenge)任务中,相较于基于群体和无群体预设的基线方法,UPD始终取得卓越性能。在人机交互用户研究中,经UPD训练的智能体获得更高回报,并在适应性、拟人化程度及减少挫败感方面均优于所有评估的基线方法。

0
下载
关闭预览

相关内容

《利用自适应交互增强有人无人编队协同》217页
专知会员服务
95+阅读 · 2024年11月23日
【硬核书】多无人机鲁棒编队控制,145页pdf
专知会员服务
80+阅读 · 2022年10月14日
【ICML2022】Orchestra: 通过全局一致聚类的无监督联邦学习
专知会员服务
17+阅读 · 2022年5月27日
【ICML2022】鲁棒强化学习的策略梯度法
专知会员服务
38+阅读 · 2022年5月21日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】
人工智能前沿讲习班
27+阅读 · 2018年12月13日
DARPA征集无人集群战术思路
无人机
19+阅读 · 2017年10月18日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Arxiv
0+阅读 · 5月28日
Arxiv
0+阅读 · 5月13日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员