Multi-agent LLM systems are increasingly used to solve complex tasks through decomposition, debate, specialization, and ensemble reasoning. However, these systems are usually evaluated in terms of robustness: whether performance is preserved under perturbation. This paper studies a different question: whether semantic stress exposes structured variation that could support future antifragile learning. We introduce CAFE, a statistical framework for detecting antifragility-compatible regimes in multi-agent architectures. CAFE models a controlled expected distribution of semantic stressors, reconstructs an architecture-specific observed effective stress distribution from multi-dimensional judge signals, and compares both distributions using a distributional Jensen Gap under a convex stress potential. A positive gap does not imply immediate performance improvement; instead, it indicates a convex-expansive deformation of the observed stress distribution, suggesting that the architecture exposes learnable stress structure. We evaluate CAFE on a banking-risk analysis benchmark with five multi-agent architectures: flat, hierarchical, debate, meta-adaptive, and ensemble. Across all architectures, semantic stress reduces average judged quality by roughly one third. Yet all architectures exhibit positive distributional Jensen Gaps with bootstrap confidence intervals above zero. These results show that immediate quality degradation can coexist with statistically detectable antifragility-compatible stress geometry. CAFE is therefore not an antifragile learner itself, but a measurement layer for identifying when and where antifragility learning may be worth applying.


翻译:多智能体大语言模型系统日益广泛用于通过分解、辩论、专业化和集成推理来解决复杂任务。然而,这些系统通常以鲁棒性(即性能在扰动下是否保持不变)为评估标准。本文研究一个不同的问题:语义压力是否能够暴露可能支持未来反脆弱学习的结构化变异。我们提出CAFE——一个用于检测多智能体架构中反脆弱性兼容态的统计框架。CAFE对受控的语义压力源期望分布进行建模,从多维评判信号中重构架构特定的观测有效压力分布,并在凸性压力势下利用分布性Jensen Gap比较这两个分布。正向缺口并不直接意味着性能即时提升;相反,它表明观测压力分布发生了凸性扩张变形,暗示该架构暴露出可学习的压力结构。我们在一个银行风险分析基准上评估了CAFE,使用了五种多智能体架构:扁平架构、层级架构、辩论架构、元自适应架构和集成架构。在所有架构中,语义压力使平均评判质量降低约三分之一。然而,所有架构均表现出正向分布性Jensen Gap,且其自助法置信区间高于零。这些结果表明,即时质量下降与统计上可检测的反脆弱性兼容压力几何结构可以共存。因此,CAFE本身并非反脆弱学习器,而是一个用于识别何时何地值得应用反脆弱学习的测量层。

0
下载
关闭预览

相关内容

《多智能体大语言模型系统的可靠决策研究》
专知会员服务
41+阅读 · 2月2日
《大型多模态智能体》综述
专知会员服务
106+阅读 · 2024年2月26日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
【好文解析】ICASSP最佳学生论文:深度对抗声学模型训练框架
中国科学院自动化研究所
13+阅读 · 2018年4月28日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Arxiv
24+阅读 · 2024年2月23日
Arxiv
14+阅读 · 2023年8月7日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
4+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员