Large language models are increasingly deployed in multi-agent systems for strategic tasks, yet how design choices such as role-based personas and payoff visibility affect reasoning remains poorly understood. We investigate whether multi-agent systems function as strategic reasoners capable of payoff optimization or as identity-driven actors that prioritize role alignment over explicit incentives. Using Nash equilibrium achievement as a diagnostic for strategic reasoning, we conduct systematic experiments across four LLM architectures (Qwen-7B, Qwen-32B, Llama-8B, Mistral-7B) in complex environmental decision-making games involving four agents. We show that role identity bias fundamentally alters strategic reasoning even when payoff-optimal equilibria exist and complete payoff information is available. Removing personas and providing explicit payoffs enables Qwen models to achieve high Nash equilibrium rates, indicating that both conditions are necessary for strategic reasoning. In contrast, personas systematically bias equilibrium selection toward socially preferred outcomes: with personas present, all of the achieved equilibria correspond to Green Transition, while models entirely fail to reach equilibrium when Tragedy of the Commons is payoff-optimal. The effect of explicit payoffs depends entirely on persona presence, revealing strong interactions between representational design choices. We also observe clear model-dependent patterns. Qwen architectures are highly sensitive to both personas and payoff visibility, whereas Llama and Mistral exhibit rigid reasoning behavior across conditions. These findings demonstrate that representational choices are substantive governance decisions that determine whether multi-agent systems act as strategic reasoners or identity-driven actors, with important implications for real-world deployment.


翻译:大语言模型日益部署于多智能体系统中执行战略任务,然而基于角色的身份设定和收益可见性等设计选择如何影响推理过程仍鲜为人知。本研究探讨多智能体系统究竟是能够实现收益优化的战略推理者,还是优先考虑角色对齐而非显性激励的身份驱动行为体。我们以纳什均衡达成率作为战略推理的诊断指标,在涉及四个智能体的复杂环境决策博弈中,对四种大语言模型架构(Qwen-7B、Qwen-32B、Llama-8B、Mistral-7B)进行了系统实验。研究表明,即使存在收益最优均衡且具备完整收益信息,角色身份偏见仍会根本性地改变战略推理。移除角色设定并提供显性收益可使Qwen模型实现高纳什均衡达成率,表明这两个条件均为战略推理的必要前提。与之相反,角色设定会系统性地将均衡选择偏向社会偏好结果:当存在角色设定时,所有达成的均衡均对应绿色转型;而当公地悲剧成为收益最优解时,模型完全无法达成均衡。显性收益的作用完全取决于角色设定的存在,这揭示了表征设计选择之间的强交互效应。我们还观察到明显的模型依赖性模式:Qwen架构对角色设定和收益可见性均高度敏感,而Llama和Mistral在不同条件下均表现出僵化的推理行为。这些发现证明,表征选择实质上是决定多智能体系统作为战略推理者还是身份驱动行为体的治理决策,对现实世界部署具有重要启示。

0
下载
关闭预览

相关内容

《多智能体大语言模型系统的可靠决策研究》
专知会员服务
31+阅读 · 2月2日
AgentOps综述:分类、挑战与未来方向
专知会员服务
38+阅读 · 2025年8月6日
多智能体协作机制:大语言模型综述
专知会员服务
84+阅读 · 2025年1月14日
迈向大语言模型偏好学习的统一视角综述
专知会员服务
24+阅读 · 2024年9月7日
基于大型语言模型的多智能体:进展与挑战综述
专知会员服务
138+阅读 · 2024年2月6日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
相关VIP内容
《多智能体大语言模型系统的可靠决策研究》
专知会员服务
31+阅读 · 2月2日
AgentOps综述:分类、挑战与未来方向
专知会员服务
38+阅读 · 2025年8月6日
多智能体协作机制:大语言模型综述
专知会员服务
84+阅读 · 2025年1月14日
迈向大语言模型偏好学习的统一视角综述
专知会员服务
24+阅读 · 2024年9月7日
基于大型语言模型的多智能体:进展与挑战综述
专知会员服务
138+阅读 · 2024年2月6日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员