Cooperative equilibria are fragile. When agents learn alongside each other rather than in a fixed environment, the process of learning destabilizes the cooperation they are trying to sustain: every gradient step an agent takes shifts the distribution of actions its partner will play, turning a cooperative partner into a source of stochastic noise precisely where the cooperation decision is most sensitive. We study how this co-learning noise propagates through the structure of coordination games, and find that the cooperative equilibrium, even when strongly Pareto-dominant, is exponentially unstable under standard risk-neutral learning, collapsing irreversibly once partner noise crosses the game's critical cooperation threshold. The natural response to apply distributional robustness to hedge against partner uncertainty makes things strictly worse: risk-averse return objectives penalize the high-variance cooperative action relative to defection, widening the instability region rather than shrinking it, a paradox that reveals a fundamental mismatch between the domains where robustness is applied and instability originates. We resolve this by showing that robustness should target the policy gradient update variance induced by partner uncertainty, not the return distribution. This distinction yields an algorithm whose gradient updates are modulated by an online measure of partner unpredictability, provably expanding the cooperation basin in symmetric coordination games. To unify stability, sample complexity, and welfare consequences of this approach, we introduce the Price of Paranoia as the structural dual of the Price of Anarchy. Together with a novel Cooperation Window, it precisely characterizes how much welfare learning algorithms can recover under partner noise, pinning down the optimal degree of robustness as a closed-form balance between equilibrium stability and sample efficiency.


翻译:合作均衡是脆弱的。当智能体在彼此共存的环境中而非固定环境中学习时,学习过程本身会破坏它们试图维持的合作:智能体每执行一次梯度更新,都会改变其对手将要采取的行动分布,恰好在合作决策最敏感的环节将合作对手转化为随机噪声源。我们研究了这种共同学习噪声如何通过协调博弈的结构传播,并发现在标准风险中性学习下,合作均衡(即使强烈帕累托占优)也会指数级不稳定,一旦对手噪声超过博弈的关键合作阈值就会不可逆地崩溃。为了对冲对手不确定性而自然采用分布鲁棒性的做法反而会使情况更糟:风险规避的回报目标相对于背叛行为会惩罚高方差的合作行为,从而扩大而非缩小不稳定区域——这一悖论揭示了鲁棒性应用领域与不稳定根源之间的根本性错配。我们通过证明鲁棒性应针对由对手不确定性引发的策略梯度更新方差(而非回报分布)来解决这一问题。这一区分催生了如下算法:其梯度更新通过对手不可预测性的在线度量进行调节,可在对称协调博弈中可证明地扩大合作盆地。为统一分析该方法的稳定性、样本复杂度与福利后果,我们将“偏执的成本”引入为“无政府成本的结构对偶”。结合新提出的“合作窗口”,该指标精确刻画了学习算法在对手噪声下能恢复多少福利,并以均衡稳定性与样本效率之间的闭式平衡确定了最优鲁棒性程度。

0
下载
关闭预览

相关内容

《基于分层多智能体强化学习的逼真空战协同策略》
专知会员服务
47+阅读 · 2025年10月30日
【NTU博士论文】基于协作式多智能体强化学习的决策制定
面向关系建模的合作多智能体深度强化学习综述
专知会员服务
42+阅读 · 2025年4月18日
《不确定通信条件下的分布式多智能体决策》122页
专知会员服务
58+阅读 · 2025年2月26日
多智能体学习中合作的综述
专知会员服务
75+阅读 · 2023年12月12日
鲁棒和隐私保护的协同学习
专知会员服务
38+阅读 · 2021年12月22日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
20+阅读 · 2020年9月1日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
强化学习的两大话题之一,仍有极大探索空间
AI科技评论
22+阅读 · 2020年8月22日
DeepMind:用PopArt进行多任务深度强化学习
论智
30+阅读 · 2018年9月14日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关主题
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
《基于分层多智能体强化学习的逼真空战协同策略》
专知会员服务
47+阅读 · 2025年10月30日
【NTU博士论文】基于协作式多智能体强化学习的决策制定
面向关系建模的合作多智能体深度强化学习综述
专知会员服务
42+阅读 · 2025年4月18日
《不确定通信条件下的分布式多智能体决策》122页
专知会员服务
58+阅读 · 2025年2月26日
多智能体学习中合作的综述
专知会员服务
75+阅读 · 2023年12月12日
鲁棒和隐私保护的协同学习
专知会员服务
38+阅读 · 2021年12月22日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员