Multi-agent LLM systems are increasingly deployed as autonomous collaborators, where agents interact freely rather than execute fixed, pre-specified workflows. In such settings, effective coordination cannot be fully designed in advance and must instead emerge through interaction. However, most prior work enforces coordination through fixed roles, workflows, or aggregation rules, leaving open the question of how well self-organizing teams perform when coordination is unconstrained. Drawing on organizational psychology, we study whether self-organizing LLM teams achieve strong synergy, where team performance matches or exceeds the best individual member. Across human-inspired and frontier ML benchmarks, we find that -- unlike human teams -- LLM teams consistently fail to match their expert agent's performance, even when explicitly told who the expert is, incurring performance losses of up to 41.1% on ML benchmarks. Decomposing this failure, we show that expert leveraging, rather than identification, is the primary bottleneck. Conversational analysis reveals a tendency toward integrative compromise -- averaging expert and non-expert views rather than appropriately weighting expertise -- which increases with team size and correlates negatively with performance. Interestingly, this consensus-seeking behavior improves robustness to adversarial agents, suggesting a trade-off between alignment and effective expertise utilization. Our findings reveal a significant gap in the ability of self-organizing multi-agent teams to harness the collective expertise of their members.


翻译:多智能体大语言模型系统正日益被部署为自主协作者,其中智能体可自由交互而非执行固定的预设工作流程。在此类场景中,有效协调无法完全预先设计,而需通过交互动态涌现。然而,现有研究大多通过固定角色、工作流程或聚合规则强制实现协调,尚未解答当协调不受约束时自组织团队的实际表现。借鉴组织心理学原理,本研究考察了自组织大语言模型团队能否实现强协同效应——即团队绩效达到或超越最优个体成员水平。在人类启发性基准与前沿机器学习基准测试中,我们发现:与人类团队不同,大语言模型团队始终无法达到其专家智能体的独立表现水平,即便被明确告知专家身份,其机器学习基准绩效损失仍高达41.1%。通过分解这一失败原因,我们证明"专家利用"而非"专家识别"是主要瓶颈。对话分析揭示了整合妥协倾向——即平均化专家与非专家观点而非合理分配专业权重,该倾向随团队规模增大而增强,且与绩效呈负相关。值得注意的是,这种寻求共识的行为能提升对抗恶意智能体的鲁棒性,暗示模型对齐与有效专业利用之间存在权衡。我们的发现揭示了自组织多智能体团队在利用成员集体专长方面存在重大缺陷。

0
下载
关闭预览

相关内容

多智能体协作机制
专知会员服务
23+阅读 · 4月25日
《多智能体大语言模型系统的可靠决策研究》
专知会员服务
41+阅读 · 2月2日
中文版 | 集中式与分布式多智能体AI协调策略
专知会员服务
22+阅读 · 2025年5月8日
《多智能体系统中的异质性》221页
专知会员服务
36+阅读 · 2025年2月14日
《多智能体系统中的目标管理》莱特州立大学博士论文
专知会员服务
69+阅读 · 2022年11月25日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
27+阅读 · 2019年9月9日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
【CAA智库】高文院士:转向跨媒体智能
中国自动化学会
22+阅读 · 2018年8月20日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
5+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
多智能体协作机制
专知会员服务
23+阅读 · 4月25日
《多智能体大语言模型系统的可靠决策研究》
专知会员服务
41+阅读 · 2月2日
中文版 | 集中式与分布式多智能体AI协调策略
专知会员服务
22+阅读 · 2025年5月8日
《多智能体系统中的异质性》221页
专知会员服务
36+阅读 · 2025年2月14日
《多智能体系统中的目标管理》莱特州立大学博士论文
专知会员服务
69+阅读 · 2022年11月25日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员