Vision-Language Models (VLMs) enable powerful multi-agent systems, but scaling them is economically unsustainable: coordinating heterogeneous agents under information asymmetry often spirals costs. Existing paradigms, such as Mixture-of-Agents and knowledge-based routers, rely on heuristic proxies that ignore costs and collapse uncertainty structure, leading to provably suboptimal coordination. We introduce Agora, a framework that reframes coordination as a decentralized market for uncertainty. Agora formalizes epistemic uncertainty into a structured, tradable asset (perceptual, semantic, inferential), and enforces profitability-driven trading among agents based on rational economic rules. A market-aware broker, extending Thompson Sampling, initiates collaboration and guides the system toward cost-efficient equilibria. Experiments on five multimodal benchmarks (MMMU, MMBench, MathVision, InfoVQA, CC-OCR) show that Agora outperforms strong VLMs and heuristic multi-agent strategies, e.g., achieving +8.5% accuracy over the best baseline on MMMU while reducing cost by over 3x. These results establish market-based coordination as a principled and scalable paradigm for building economically viable multi-agent visual intelligence systems.


翻译:视觉语言模型(VLMs)为强大的多智能体系统提供了可能,但其规模化在经济上难以持续:在信息不对称条件下协调异构智能体往往导致成本急剧上升。现有范式,如智能体混合与基于知识的路由器,依赖于忽略成本且破坏不确定性结构的启发式代理,这导致了可证明的次优协调。我们提出了Agora框架,它将协调重新定义为不确定性的去中心化市场。Agora将认知不确定性形式化为一种结构化、可交易的资产(感知性、语义性、推理性),并基于理性经济规则强制智能体间进行利润驱动的交易。一个具有市场感知能力的经纪人,扩展了汤普森采样算法,发起协作并引导系统走向成本高效的均衡。在五个多模态基准测试(MMMU、MMBench、MathVision、InfoVQA、CC-OCR)上的实验表明,Agora优于强大的VLMs和启发式多智能体策略,例如,在MMMU上比最佳基线准确率提升+8.5%,同时成本降低超过3倍。这些结果确立了基于市场的协调作为一种原则性且可扩展的范式,用于构建经济可行的多智能体视觉智能系统。

0
下载
关闭预览

相关内容

《多智能体大语言模型系统的可靠决策研究》
专知会员服务
31+阅读 · 2月2日
多模态大语言模型下游调优中“保持自我”的重要性
专知会员服务
17+阅读 · 2025年12月15日
多模态幻觉的评估与检测综述
专知会员服务
18+阅读 · 2025年7月28日
大型视觉语言模型中幻觉现象的综述
专知会员服务
47+阅读 · 2024年10月24日
《多模态大型语言模型的幻觉现象》综述
专知会员服务
46+阅读 · 2024年4月30日
「PPT」深度学习中的不确定性估计
专知
27+阅读 · 2019年7月20日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
0+阅读 · 1月19日
VIP会员
相关VIP内容
《多智能体大语言模型系统的可靠决策研究》
专知会员服务
31+阅读 · 2月2日
多模态大语言模型下游调优中“保持自我”的重要性
专知会员服务
17+阅读 · 2025年12月15日
多模态幻觉的评估与检测综述
专知会员服务
18+阅读 · 2025年7月28日
大型视觉语言模型中幻觉现象的综述
专知会员服务
47+阅读 · 2024年10月24日
《多模态大型语言模型的幻觉现象》综述
专知会员服务
46+阅读 · 2024年4月30日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员