Multi-agent systems (MAS) have emerged as a prominent paradigm for leveraging large language models (LLMs) to tackle complex tasks. However, the mechanisms governing the effectiveness of MAS built upon publicly available LLMs, specifically the underlying rationales for their success or failure, remain largely unexplored. In this paper, we revisit MAS through the perspective of uncertainty, considering both intra- and inter-agent dynamics by investigating entropy transitions during problem-solving across various topologies and six benchmark tasks. By analyzing 245 features spanning token-, trajectory-, and round-level entropy, we counterintuitively find that a single agent outperforms MAS in approximately 43.3% of cases, and that uncertainty dynamics are largely determined during the first round of interaction. Furthermore, we provide three key observations: 1) Certainty Preference: reducing uncertainty at any stage for any agent is critical for guaranteeing correct solutions; 2) Base Uncertainty: base models with lower entropy during problem-solving directly benefit MAS performance; and 3) Task Awareness: entropy dynamics of MAS play varying roles across different tasks. Building on these insights, we introduce a simple yet effective algorithm, the Entropy Judger, to select solutions from MAS's pass@k results, leading to consistent accuracy improvements across all MAS configurations and tasks. Our source code is available at https://github.com/AgenticFinLab/multiagent-entropy.


翻译:多智能体系统已成为利用大语言模型处理复杂任务的重要范式。然而,基于公开可用大语言模型构建的多智能体系统其有效性背后的机制——特别是其成功或失败的根本原理——在很大程度上仍未得到探索。本文从不确定性的视角重新审视多智能体系统,通过研究在不同拓扑结构和六项基准任务中问题求解过程中的熵变,综合考虑智能体内部及智能体间的动态特性。通过分析涵盖令牌级、轨迹级和轮次级熵的245个特征,我们反直觉地发现:在约43.3%的情况下,单个智能体的表现优于多智能体系统,且不确定性动态主要在第一轮交互过程中决定。此外,我们提出三个关键观察:1)确定性偏好:在任何阶段降低任何智能体的不确定性对于保证正确解至关重要;2)基础不确定性:在问题求解过程中具有较低熵的基础模型直接有利于多智能体系统性能;3)任务感知:多智能体系统的熵动态在不同任务中扮演的角色各不相同。基于这些发现,我们提出一种简单而有效的算法——熵判定器,用于从多智能体系统的pass@k结果中选择解决方案,该算法在所有多智能体系统配置和任务中均实现了准确率的持续提升。我们的源代码公开于 https://github.com/AgenticFinLab/multiagent-entropy。

0
下载
关闭预览

相关内容

《多智能体大语言模型系统的可靠决策研究》
专知会员服务
31+阅读 · 2月2日
基于大型语言模型的人机系统综述
专知会员服务
26+阅读 · 2025年5月12日
面向大模型多智能体系统的多维评估方法
专知会员服务
34+阅读 · 2025年4月15日
《大语言模型智能体:方法、应用与挑战综述》
专知会员服务
58+阅读 · 2025年3月28日
基于大语言模型的智能体优化研究综述
专知会员服务
59+阅读 · 2025年3月25日
多智能体协作机制:大语言模型综述
专知会员服务
84+阅读 · 2025年1月14日
《多语言大型语言模型:系统综述》
专知会员服务
49+阅读 · 2024年11月21日
基于大型语言模型的多智能体:进展与挑战综述
专知会员服务
138+阅读 · 2024年2月6日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
「PPT」深度学习中的不确定性估计
专知
27+阅读 · 2019年7月20日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
相关VIP内容
《多智能体大语言模型系统的可靠决策研究》
专知会员服务
31+阅读 · 2月2日
基于大型语言模型的人机系统综述
专知会员服务
26+阅读 · 2025年5月12日
面向大模型多智能体系统的多维评估方法
专知会员服务
34+阅读 · 2025年4月15日
《大语言模型智能体:方法、应用与挑战综述》
专知会员服务
58+阅读 · 2025年3月28日
基于大语言模型的智能体优化研究综述
专知会员服务
59+阅读 · 2025年3月25日
多智能体协作机制:大语言模型综述
专知会员服务
84+阅读 · 2025年1月14日
《多语言大型语言模型:系统综述》
专知会员服务
49+阅读 · 2024年11月21日
基于大型语言模型的多智能体:进展与挑战综述
专知会员服务
138+阅读 · 2024年2月6日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员