Mutual adaptation is a central challenge in human-AI teaming, as humans naturally adjust their strategies in response to an AI agent's behavior. Existing approaches attempt to approximate human behavior by diversifying training partners; however, these partners are typically static and fail to capture the adaptive nature of human teammates. When agents are trained jointly in standard multi-agent settings, they often converge to opaque coordination strategies that work only with their co-trained partners, leading to poor generalization. To model adaptive human behavior, we formulate human-AI teaming as an Interactive Partially Observable Markov Decision Process (I-POMDP). We propose NestRL, a nested training regime that learns the solution to a finite-level I-POMDP by training agents at each level against adaptive agents from the level below. This exposes agents to adaptive behavior while preventing emergence of opaque coordination strategies. We provide theoretical analysis showing that NestRL agents avoid convergence to partner-specific strategies, and validate this empirically in the Overcooked domain against state-of-the-art baselines. NestRL achieves higher task performance with both unseen adaptive agents and real human teammates, while exhibiting significantly greater adaptability over the course of interaction.


翻译:互适性是人机协同中的核心挑战,因为人类会基于AI智能体的行为自然调整自身策略。现有方法试图通过多样化的训练伙伴来近似人类行为,但这些伙伴通常是静态的,无法捕捉人类队友的适应特性。当智能体在标准多智能体环境中联合训练时,它们常会收敛于仅能与共训伙伴协作的隐性协同策略,导致泛化能力低下。为建模人类适应性行为,我们将人机协同形式化为交互式部分可观测马尔可夫决策过程(I-POMDP)。我们提出NestRL——一种嵌套式训练范式,通过训练每一层级的智能体与低一层级的自适应智能体对抗,从而学习有限层级I-POMDP的解决方案。该方法既使智能体暴露于适应行为下,又防止了隐性协同策略的产生。理论分析表明,NestRL智能体可避免收敛至伙伴特异性策略,我们在Overcooked环境中针对最先进基线模型进行了实证验证。无论是与未见过的自适应智能体还是真实人类队友合作,NestRL均能获得更高的任务性能,并在交互过程中展现出显著增强的适应性。

0
下载
关闭预览

相关内容

《军事行动中的人机AI编队本体模型》
专知会员服务
37+阅读 · 2025年11月2日
《军事行动中的人机协同共同学习》2025最新文献
专知会员服务
34+阅读 · 2025年10月10日
人机编队协作的共同认知改变了战争方式
专知会员服务
27+阅读 · 2025年2月5日
《用于个性化人机协作的可解释人工智能》269页
专知会员服务
48+阅读 · 2024年5月7日
人工智能训练师的再定义
竹间智能Emotibot
10+阅读 · 2019年5月15日
CCCF专栏文章:人机共融智能
中国计算机学会
15+阅读 · 2017年12月21日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
9+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
《军事行动中的人机AI编队本体模型》
专知会员服务
37+阅读 · 2025年11月2日
《军事行动中的人机协同共同学习》2025最新文献
专知会员服务
34+阅读 · 2025年10月10日
人机编队协作的共同认知改变了战争方式
专知会员服务
27+阅读 · 2025年2月5日
《用于个性化人机协作的可解释人工智能》269页
专知会员服务
48+阅读 · 2024年5月7日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员