LLM agents are known to deviate from Nash equilibria in strategic interactions, but nobody has looked inside the model to understand why, or asked whether the deviation can be reversed. We do both. Working with four open-source models (Llama-3 and Qwen2.5, 8B to 72B parameters) playing four canonical two-player games, we establish the behavioral picture through self-play and cross-play experiments, then open up the 32-layer Llama-3-8B model and examine what actually happens during a strategic decision. The mechanistic findings are clear. Opponent history is encoded with near-perfect fidelity at the first layer (96% probe accuracy) and consumed progressively by later ones, while Nash action encoding is weak throughout, never exceeding 56%. There is no dedicated Nash module. Instead, the model privately favors the Nash action through most of its forward pass, but a prosocial override concentrated in the final layers reverses this, reaching 84% probability of cooperation at layer 30. When we inject a learned Nash direction into the residual stream, the behavior shifts bidirectionally, confirmed through concept clamping. The behavioral experiments surface six scale- and architecture-dependent findings, the most notable being that chain-of-thought reasoning worsens Nash play in small models but achieves near-perfect Nash play above 70B parameters. The cross-play experiments reveal three phenomena invisible in self-play: a small model can unravel any partner's cooperation by defecting early; two large models reinforce each other's cooperative instincts indefinitely; and who moves first in a coordination game determines which Nash equilibrium the system reaches. LLMs do not lack Nash-playing competence. They compute it, then suppress it.


翻译:已知大语言模型智能体在策略互动中会偏离纳什均衡,但此前无人深入模型内部探究原因,也未探讨这种偏离是否可逆转。本文兼攻二者。我们使用四个开源模型(Llama-3和Qwen2.5,参数量从8B到72B)进行四种经典双人博弈的自博弈与交叉博弈实验,首先建立行为层面的全景图,随后剖析32层Llama-3-8B模型,审视策略决策的实际运算过程。机制层面的发现清晰明确:对手历史信息在第一层便以近乎完美的保真度完成编码(探针准确率96%),并在后续层中逐步消耗;而纳什行动编码始终薄弱,最高不超过56%。模型并无专属纳什模块。相反,在前向传播的大多数阶段,模型内在倾向于纳什行动,但集中在最终层的亲社会性覆盖机制逆转了这一倾向:至第30层时,合作概率已达84%。当我们将学到的纳什方向注入残差流后,行为呈现双向偏移(经概念钳制实验验证)。行为实验揭示了六项与规模及架构相关的发现,其中最重要的是:思维链推理在小型模型中削弱纳什行为,但当参数超过70B时,却能实现近乎完美的纳什行为。交叉博弈实验揭示了自博弈中不可见的三种现象:小型模型可通过早期背叛瓦解任何对手的合作策略;两个大型模型会无限期强化彼此的合作本能;协调博弈中先手顺序决定了系统最终收敛于哪个纳什均衡。大语言模型并非缺乏执行纳什博弈的能力——它们计算出了纳什均衡,然后将其抑制了。

0
下载
关闭预览

相关内容

大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
大语言模型与小语言模型协同机制综述
专知会员服务
40+阅读 · 2025年5月15日
【博士论文】《自然语言处理中的因果推理》
专知会员服务
25+阅读 · 2025年4月25日
基于大语言模型的智能体优化研究综述
专知会员服务
64+阅读 · 2025年3月25日
博弈论与大语言模型的结合:系统性综述
专知会员服务
60+阅读 · 2025年2月14日
大语言模型的因果性
专知会员服务
40+阅读 · 2024年10月22日
机器学习的可解释性:因果推理和稳定学习
DataFunTalk
13+阅读 · 2020年3月3日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
注意力机制可解释吗?这篇ACL 2019论文说……
机器之心
11+阅读 · 2019年6月16日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
大语言模型与小语言模型协同机制综述
专知会员服务
40+阅读 · 2025年5月15日
【博士论文】《自然语言处理中的因果推理》
专知会员服务
25+阅读 · 2025年4月25日
基于大语言模型的智能体优化研究综述
专知会员服务
64+阅读 · 2025年3月25日
博弈论与大语言模型的结合:系统性综述
专知会员服务
60+阅读 · 2025年2月14日
大语言模型的因果性
专知会员服务
40+阅读 · 2024年10月22日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员