LLM agents are known to deviate from Nash equilibria in strategic interactions, but nobody has looked inside the model to understand why, or asked whether the deviation can be reversed. We do both. Working with four open-source models (Llama-3 and Qwen2.5, 8B to 72B parameters) playing four canonical two-player games, we establish the behavioral picture through self-play and cross-play experiments, then open up the 32-layer Llama-3-8B model and examine what actually happens during a strategic decision. The mechanistic findings are clear. Opponent history is encoded with near-perfect fidelity at the first layer (96% probe accuracy) and consumed progressively, while Nash action encoding is weak throughout, never exceeding 56%. There is no dedicated Nash module. Instead, the model privately favors the Nash action through most of its forward pass, but a prosocial override rooted in pretraining on human text concentrated in the final layers reverses this, reaching 84% probability of cooperation at layer 30. Injecting a learned Nash direction into the residual stream shifts behavior bidirectionally and causally, confirmed through concept clamping. The behavioral experiments surface six scale- and architecture-dependent findings, the most notable being that chain-of-thought reasoning worsens Nash play in small models but achieves near-perfect Nash play above 70B parameters. The cross-play experiments reveal three phenomena invisible in self-play: a small model can unravel any partner's cooperation by defecting early; two large models reinforce each other's cooperative instincts indefinitely; and who moves first determines which Nash equilibrium the system reaches. LLMs do not lack Nash-playing competence. They compute it, then suppress it.


翻译:已知大语言模型代理在战略互动中偏离纳什均衡,但尚未有研究深入模型内部探究其原因,也未探讨这种偏离是否可逆。本研究同时填补了这两项空白。我们使用四种开源模型(Llama-3和Qwen2.5,参数量从80亿到720亿)参与四种经典双人博弈,通过自我对弈和交叉对弈实验建立行为特征图谱,随后拆解32层的Llama-3-8B模型,观察战略决策过程中的实际运作机制。机制性发现清晰明确:对手历史信息在第一层即以近乎完美的保真度编码(探针准确率96%),并随层数增加逐步消耗,而纳什动作编码始终薄弱,从未超过56%。模型中不存在专门的纳什模块。相反,在大部分前向传播过程中,模型私下偏好纳什动作,但根植于人类文本预训练的亲社会性覆盖机制在最后几层逆转了这一趋势——第30层时合作概率达到84%。通过概念夹持技术,将学习到的纳什方向注入残差流可双向因果性地改变模型行为。行为实验揭示了六项与规模及架构相关的发现,其中最突出的是:思维链推理在小模型中恶化纳什博弈表现,但在720亿参数以上模型中实现近乎完美的纳什博弈。交叉对弈实验揭示了自我对弈中无法观测的三种现象:小模型可通过早期背叛瓦解任意合作对象;两个大模型会无限强化彼此的合作本能;先手行动者决定系统最终达到哪个纳什均衡。大语言模型并非缺乏纳什博弈能力——它们计算了纳什策略,然后将其抑制了。

0
下载
关闭预览

相关内容

大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
大语言模型与小语言模型协同机制综述
专知会员服务
40+阅读 · 2025年5月15日
博弈论与大语言模型的结合:系统性综述
专知会员服务
60+阅读 · 2025年2月14日
大语言模型的因果性
专知会员服务
40+阅读 · 2024年10月22日
大语言模型的知识冲突:成因、根源与展望
专知会员服务
13+阅读 · 2024年9月23日
《兵棋推演与大型语言模型: 方法、应用和稳健性》
专知会员服务
38+阅读 · 2024年7月19日
大型语言模型公平性
专知会员服务
41+阅读 · 2023年8月31日
专知会员服务
41+阅读 · 2021年2月12日
机器学习的可解释性:因果推理和稳定学习
DataFunTalk
13+阅读 · 2020年3月3日
我跑了ERNIE和BERT两个模型,结果出乎意料......
PaperWeekly
21+阅读 · 2019年6月24日
注意力机制可解释吗?这篇ACL 2019论文说……
机器之心
11+阅读 · 2019年6月16日
NAACL 2019最佳论文:量子概率驱动的神经网络
PaperWeekly
14+阅读 · 2019年6月10日
相关性≠因果:概率图模型和do-calculus
论智
31+阅读 · 2018年10月29日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | 自回归Boltzmann生成器重塑分子采样
专知会员服务
0+阅读 · 今天15:55
GNN跨域综述:从消息传递到图基础模型
专知会员服务
0+阅读 · 今天15:53
无人机自主控制与人工智能:系统性综述
专知会员服务
11+阅读 · 今天7:25
巡飞弹与反无人机系统——现代战场的两大支柱
专知会员服务
3+阅读 · 今天6:54
《打造“黄金舰队”》57页报告
专知会员服务
3+阅读 · 今天6:52
《北约数字教官网络发展路径》128页报告
专知会员服务
2+阅读 · 今天6:33
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
7+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
8+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
9+阅读 · 6月25日
相关VIP内容
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
大语言模型与小语言模型协同机制综述
专知会员服务
40+阅读 · 2025年5月15日
博弈论与大语言模型的结合:系统性综述
专知会员服务
60+阅读 · 2025年2月14日
大语言模型的因果性
专知会员服务
40+阅读 · 2024年10月22日
大语言模型的知识冲突:成因、根源与展望
专知会员服务
13+阅读 · 2024年9月23日
《兵棋推演与大型语言模型: 方法、应用和稳健性》
专知会员服务
38+阅读 · 2024年7月19日
大型语言模型公平性
专知会员服务
41+阅读 · 2023年8月31日
专知会员服务
41+阅读 · 2021年2月12日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员