Large language models are increasingly deployed in multi-agent systems for strategic tasks, yet how design choices such as role-based personas and payoff visibility affect reasoning remains poorly understood. We investigate whether multi-agent systems function as strategic reasoners capable of payoff optimization or as identity-driven actors that prioritize role alignment over explicit incentives. Using Nash equilibrium achievement as a diagnostic for strategic reasoning, we conduct systematic experiments across four LLM architectures (Qwen-7B, Qwen-32B, Llama-8B, Mistral-7B) in complex environmental decision-making games involving four agents. We show that role identity bias fundamentally alters strategic reasoning even when payoff-optimal equilibria exist and complete payoff information is available. Removing personas and providing explicit payoffs enables Qwen models to achieve high Nash equilibrium rates, indicating that both conditions are necessary for strategic reasoning. In contrast, personas systematically bias equilibrium selection toward socially preferred outcomes: with personas present, all of the achieved equilibria correspond to Green Transition, while models entirely fail to reach equilibrium when Tragedy of the Commons is payoff-optimal. The effect of explicit payoffs depends entirely on persona presence, revealing strong interactions between representational design choices. We also observe clear model-dependent patterns. Qwen architectures are highly sensitive to both personas and payoff visibility, whereas Llama and Mistral exhibit rigid reasoning behavior across conditions. These findings demonstrate that representational choices are substantive governance decisions that determine whether multi-agent systems act as strategic reasoners or identity-driven actors, with important implications for real-world deployment.


翻译:大型语言模型正日益被部署于多智能体系统中执行战略任务,然而基于角色的身份设定和收益可见性等设计选择如何影响推理过程仍鲜为人知。本研究探讨多智能体系统究竟是能够实现收益最优化的战略推理者,还是优先考虑角色对齐而非显性激励的身份驱动行为体。以纳什均衡达成率作为战略推理的诊断指标,我们在包含四个智能体的复杂环境决策游戏中,对四种LLM架构(Qwen-7B、Qwen-32B、Llama-8B、Mistral-7B)进行了系统实验。研究表明,即使存在收益最优均衡且可获得完整收益信息,角色身份偏见仍会从根本上改变战略推理。移除角色设定并提供显性收益能使Qwen模型实现较高的纳什均衡达成率,表明这两个条件均为战略推理的必要前提。相反,角色设定会系统性地将均衡选择偏向社会偏好结果:当存在角色设定时,所有达成的均衡均对应绿色转型;而当公地悲剧成为收益最优解时,模型完全无法达成均衡。显性收益的作用完全取决于角色设定的存在,这揭示了表征设计选择间的强交互效应。我们还观察到明显的模型依赖性模式:Qwen架构对角色设定和收益可见性均高度敏感,而Llama和Mistral在不同条件下则表现出僵化的推理行为。这些发现证明,表征选择实质上是决定多智能体系统作为战略推理者还是身份驱动行为体的治理决策,对现实世界部署具有重要影响。

0
下载
关闭预览

相关内容

《多智能体大语言模型系统的可靠决策研究》
专知会员服务
31+阅读 · 2月2日
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
LLM/智能体作为数据分析师:综述
专知会员服务
36+阅读 · 2025年9月30日
AgentOps综述:分类、挑战与未来方向
专知会员服务
38+阅读 · 2025年8月6日
可信赖LLM智能体的研究综述:威胁与应对措施
专知会员服务
36+阅读 · 2025年3月17日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
多因素问题分析时,如何确立各因素权重?
人人都是产品经理
75+阅读 · 2020年3月4日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
不对称多代理博弈中的博弈理论解读
AI前线
14+阅读 · 2018年3月8日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员