方差的价值：通过不确定性驱动的策略优化缓解多智能体系统中的辩论崩溃 (The Value of Variance: Mitigating Debate Collapse in Multi-Agent Systems via Uncertainty-Driven Policy Optimization) - 专知论文

会员服务 ·

0

不确定 · 系统 · 不确定性 · 失效 · 策略优化 ·

The Value of Variance: Mitigating Debate Collapse in Multi-Agent Systems via Uncertainty-Driven Policy Optimization

翻译：方差的价值：通过不确定性驱动的策略优化缓解多智能体系统中的辩论崩溃

Luoxi Tang,Yuqiao Meng,Joseph Costa,Yingxue Zhang,Muchao Ye,Zhaohan Xi

Multi-agent debate (MAD) systems improve LLM reasoning through iterative deliberation, but remain vulnerable to debate collapse, a failure type where final agent decisions are compromised on erroneous reasoning. Existing methods lack principled mechanisms to detect or prevent such failures. To address this gap, we first propose a hierarchical metric that quantifies behavioral uncertainty at three levels: intra-agent (individual reasoning uncertainty), inter-agent (interactive uncertainty), and system-level (output uncertainty). Empirical analysis across several benchmarks reveals that our proposed uncertainty quantification reliably indicates system failures, which demonstrates the validity of using them as diagnostic metrics to indicate the system failure. Subsequently, we propose a mitigation strategy by formulating an uncertainty-driven policy optimization to penalize self-contradiction, peer conflict, and low-confidence outputs in a dynamic debating environment. Experiments demonstrate that our proposed uncertainty-driven mitigation reliably calibrates the multi-agent system by consistently improving decision accuracy while reducing system disagreement.

翻译：多智能体辩论系统通过迭代式商议提升大语言模型的推理能力，但其仍易受辩论崩溃的影响——这种失效模式表现为最终智能体决策基于错误推理而受损。现有方法缺乏检测或预防此类失效的原则性机制。为填补这一空白，我们首先提出一种分层度量指标，在三个层面量化行为不确定性：智能体内不确定性（个体推理不确定性）、智能体间不确定性（交互不确定性）以及系统级不确定性（输出不确定性）。在多个基准测试上的实证分析表明，我们提出的不确定性量化方法能可靠地指示系统失效，这验证了将其作为诊断指标以指示系统失效的有效性。随后，我们提出一种缓解策略，通过构建不确定性驱动的策略优化，在动态辩论环境中对自相矛盾、同伴冲突及低置信度输出进行惩罚。实验证明，我们提出的不确定性驱动缓解方法能可靠地校准多智能体系统，在持续提升决策准确率的同时降低系统分歧。

0

相关内容

不确定

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

1+阅读 · 2月27日

《多智能体大语言模型系统的可靠决策研究》

《多智能体大语言模型系统的可靠决策研究》

专知会员服务

31+阅读 · 2月2日

【AAAI2026】DEPO：面向大型语言模型智能体的双重效率偏好优化

【AAAI2026】DEPO：面向大型语言模型智能体的双重效率偏好优化

专知会员服务

14+阅读 · 2025年11月24日

AgentOps综述：分类、挑战与未来方向

AgentOps综述：分类、挑战与未来方向

专知会员服务

38+阅读 · 2025年8月6日

面向大模型多智能体系统的多维评估方法

面向大模型多智能体系统的多维评估方法

专知会员服务

34+阅读 · 2025年4月15日

多智能体协同决策研究全景透视：应用场景、研究方法、挑战与未来展望

多智能体协同决策研究全景透视：应用场景、研究方法、挑战与未来展望

专知会员服务

44+阅读 · 2025年3月20日

多智能体协同决策方法研究

多智能体协同决策方法研究

专知会员服务

133+阅读 · 2022年12月15日

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

专知会员服务

105+阅读 · 2022年9月21日

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

专知会员服务

43+阅读 · 2022年4月4日

【NeurIPS 2021】设置多智能体策略梯度的方差

【NeurIPS 2021】设置多智能体策略梯度的方差

专知会员服务

21+阅读 · 2021年10月24日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

47+阅读 · 2022年11月16日

面向多智能体博弈对抗的对手建模框架

面向多智能体博弈对抗的对手建模框架

专知

18+阅读 · 2022年9月28日

「PPT」深度学习中的不确定性估计

「PPT」深度学习中的不确定性估计

专知

27+阅读 · 2019年7月20日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

人工智能前沿讲习班

21+阅读 · 2018年12月21日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

赛尔原创 | 对话系统评价方法综述

赛尔原创 | 对话系统评价方法综述

哈工大SCIR

11+阅读 · 2017年11月13日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

基于正交级数展开的多体系统混合不确定性研究

国家自然科学基金

1+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

不确定线性系统故障诊断的区间分析理论与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

故障机理的不确定传播及系统故障自动推演建模方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

AgentConductor: Topology Evolution for Multi-Agent Competition-Level Code Generation

Arxiv

0+阅读 · 2月19日

DIAGPaper: Diagnosing Valid and Specific Weaknesses in Scientific Papers via Multi-Agent Reasoning

Arxiv

0+阅读 · 2月18日

MARSHAL: Incentivizing Multi-Agent Reasoning via Self-Play with Strategic LLMs

Arxiv

0+阅读 · 2月12日

AdaptEvolve: Improving Efficiency of Evolutionary AI Agents through Adaptive Model Selection

Arxiv

0+阅读 · 2月12日

On the Uncertainty of Large Language Model-Based Multi-Agent Systems

Arxiv

0+阅读 · 2月9日

Active Asymmetric Multi-Agent Multimodal Learning under Uncertainty

Arxiv

0+阅读 · 2月4日

Collaborative Belief Reasoning with LLMs for Efficient Multi-Agent Collaboration

Arxiv

0+阅读 · 1月30日

Agentic Uncertainty Quantification

Arxiv

0+阅读 · 1月22日

AgentAsk: Multi-Agent Systems Need to Ask

Arxiv

0+阅读 · 1月19日

TopoDIM: One-shot Topology Generation of Diverse Interaction Modes for Multi-Agent Systems

Arxiv

0+阅读 · 1月15日

VIP会员

文章信息

相关主题

相关VIP内容

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

1+阅读 · 2月27日

《多智能体大语言模型系统的可靠决策研究》

《多智能体大语言模型系统的可靠决策研究》

专知会员服务

31+阅读 · 2月2日

【AAAI2026】DEPO：面向大型语言模型智能体的双重效率偏好优化

【AAAI2026】DEPO：面向大型语言模型智能体的双重效率偏好优化

专知会员服务

14+阅读 · 2025年11月24日

AgentOps综述：分类、挑战与未来方向

AgentOps综述：分类、挑战与未来方向

专知会员服务

38+阅读 · 2025年8月6日

面向大模型多智能体系统的多维评估方法

面向大模型多智能体系统的多维评估方法

专知会员服务

34+阅读 · 2025年4月15日

多智能体协同决策研究全景透视：应用场景、研究方法、挑战与未来展望

多智能体协同决策研究全景透视：应用场景、研究方法、挑战与未来展望

专知会员服务

44+阅读 · 2025年3月20日

多智能体协同决策方法研究

多智能体协同决策方法研究

专知会员服务

133+阅读 · 2022年12月15日

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

专知会员服务

105+阅读 · 2022年9月21日

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

专知会员服务

43+阅读 · 2022年4月4日

【NeurIPS 2021】设置多智能体策略梯度的方差

【NeurIPS 2021】设置多智能体策略梯度的方差

专知会员服务

21+阅读 · 2021年10月24日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基于自适应表征的高效视觉建模

《多域作战中融合网络、电子战与动能机动》

AI智能体时代大模型安全风险与攻防新挑战

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

相关资讯

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

47+阅读 · 2022年11月16日

面向多智能体博弈对抗的对手建模框架

面向多智能体博弈对抗的对手建模框架

专知

18+阅读 · 2022年9月28日

「PPT」深度学习中的不确定性估计

「PPT」深度学习中的不确定性估计

专知

27+阅读 · 2019年7月20日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

人工智能前沿讲习班

21+阅读 · 2018年12月21日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

赛尔原创 | 对话系统评价方法综述

赛尔原创 | 对话系统评价方法综述

哈工大SCIR

11+阅读 · 2017年11月13日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

相关论文

AgentConductor: Topology Evolution for Multi-Agent Competition-Level Code Generation

Arxiv

0+阅读 · 2月19日

DIAGPaper: Diagnosing Valid and Specific Weaknesses in Scientific Papers via Multi-Agent Reasoning

Arxiv

0+阅读 · 2月18日

MARSHAL: Incentivizing Multi-Agent Reasoning via Self-Play with Strategic LLMs

Arxiv

0+阅读 · 2月12日

AdaptEvolve: Improving Efficiency of Evolutionary AI Agents through Adaptive Model Selection

Arxiv

0+阅读 · 2月12日

On the Uncertainty of Large Language Model-Based Multi-Agent Systems

Arxiv

0+阅读 · 2月9日

Active Asymmetric Multi-Agent Multimodal Learning under Uncertainty

Arxiv

0+阅读 · 2月4日

Collaborative Belief Reasoning with LLMs for Efficient Multi-Agent Collaboration

Arxiv

0+阅读 · 1月30日

Agentic Uncertainty Quantification

Arxiv

0+阅读 · 1月22日

AgentAsk: Multi-Agent Systems Need to Ask

Arxiv

0+阅读 · 1月19日

TopoDIM: One-shot Topology Generation of Diverse Interaction Modes for Multi-Agent Systems

Arxiv

0+阅读 · 1月15日

相关基金

基于正交级数展开的多体系统混合不确定性研究

国家自然科学基金

1+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

不确定线性系统故障诊断的区间分析理论与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

故障机理的不确定传播及系统故障自动推演建模方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员