Many emerging agentic paradigms require agents to collaborate with one another (or people) to achieve shared goals. Unfortunately, existing approaches to learning policies for such collaborative problems produce brittle solutions that fail when paired with new partners. We attribute these failures to a combination of free-riding during training and a lack of strategic robustness. To address these problems, we study the concept of strategic risk aversion and interpret it as a principled inductive bias for generalizable cooperation with unseen partners. While strategically risk-averse players are robust to deviations in their partner's behavior by design, we show that, in collaborative games, they also (1) can have better equilibrium outcomes than those at classical game-theoretic concepts like Nash, and (2) exhibit less or no free-riding. Inspired by these insights, we develop a multi-agent reinforcement learning (MARL) algorithm that integrates strategic risk aversion into standard policy optimization methods. Our empirical results across collaborative benchmarks (including an LLM collaboration task) validate our theory and demonstrate that our approach consistently achieves reliable collaboration with heterogeneous and previously unseen partners across collaborative tasks.


翻译:许多新兴的智能体范式要求智能体通过相互协作(或与人类协作)来实现共同目标。然而,现有针对此类协作问题的策略学习方法往往产生脆弱的解决方案,在与新伙伴配对时容易失效。我们将这些失败归因于训练过程中的搭便车行为以及战略鲁棒性的缺失。为解决这些问题,我们研究了战略性风险规避的概念,并将其解释为一种与未见伙伴实现可泛化协作的原则性归纳偏置。虽然战略性风险规避的参与者在设计上能对其伙伴行为偏差保持鲁棒性,但我们证明在协作博弈中,这类参与者还具有以下特征:(1)相较于纳什均衡等经典博弈论概念,能获得更优的均衡结果;(2)表现出较少或完全不存在搭便车行为。受这些发现启发,我们开发了一种多智能体强化学习算法,将战略性风险规避整合到标准策略优化方法中。我们在多个协作基准测试(包括一项大语言模型协作任务)中的实证结果验证了理论,并证明该方法能在各类协作任务中与异构及先前未见的伙伴持续实现可靠协作。

0
下载
关闭预览

相关内容

《基于分层多智能体强化学习的逼真空战协同策略》
专知会员服务
40+阅读 · 2025年10月30日
面向关系建模的合作多智能体深度强化学习综述
专知会员服务
39+阅读 · 2025年4月18日
《可信深度强化学习用于多效协同防御作战:综述》
专知会员服务
72+阅读 · 2023年6月19日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
强化学习的两大话题之一,仍有极大探索空间
AI科技评论
22+阅读 · 2020年8月22日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
96+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
0+阅读 · 3月9日
VIP会员
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
96+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员