Large Language Models (LLMs) face a persistent trade-off between inference cost and reasoning capability. While "Oracle" models (e.g., Llama-3-70B) achieve state-of-the-art accuracy, they are prohibitively expensive for high-volume deployment. Smaller models (e.g., 8B parameters) are cost-effective but struggle with complex tasks. In this work, we propose "Pyramid MoA", a hierarchical Mixture-of-Agents architecture that uses a lightweight Router to dynamically escalate queries only when necessary. By leveraging semantic agreement and confidence calibration among an ensemble of small models, our Router identifies "hard" problems with high precision. On the GSM8K benchmark, our system achieves 93.0% accuracy, effectively matching the Oracle baseline (98.0%) while reducing compute costs by 61%. We demonstrate that the system introduces negligible latency overhead (+0.82s) and allows for a tunable trade-off between performance and budget.


翻译:大型语言模型(LLM)始终面临推理成本与推理能力之间的权衡。虽然“预言家”模型(例如Llama-3-70B)实现了最先进的精度,但其高昂的成本使其难以大规模部署。较小的模型(例如80亿参数)具有成本效益,但在处理复杂任务时表现欠佳。本研究提出“金字塔MoA”,一种分层混合专家架构,它利用一个轻量级路由器仅在必要时动态升级查询。通过利用多个小模型集合中的语义一致性和置信度校准,我们的路由器能够以高精度识别“困难”问题。在GSM8K基准测试中,我们的系统达到了93.0%的准确率,有效匹配了预言家基线(98.0%),同时将计算成本降低了61%。我们证明该系统引入的延迟开销可忽略不计(+0.82秒),并允许在性能与预算之间进行可调节的权衡。

0
下载
关闭预览

相关内容

【普林斯顿博士论文】大型模型的高效推理
专知会员服务
23+阅读 · 2025年8月10日
高效大语言模型推理服务综述
专知会员服务
18+阅读 · 2025年4月30日
高效推理的集约化探索:大语言模型推理优化综述
专知会员服务
33+阅读 · 2025年4月1日
迈向大型推理模型:基于大型语言模型的强化推理综述
专知会员服务
50+阅读 · 2025年1月17日
大型语言模型高效推理综述
专知会员服务
64+阅读 · 2024年4月23日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
新兴反无人机技术与不对称防御对策
专知会员服务
3+阅读 · 今天15:12
《美空军条令出版物 3-60,目标定位(2026版)》
专知会员服务
4+阅读 · 今天15:06
《无人机在冲突地区提供紧急医疗与外科支持》
专知会员服务
4+阅读 · 今天14:48
《定向能武器交战授权治理管道》
专知会员服务
4+阅读 · 今天14:41
《人工智能与海军作战》最新报告
专知会员服务
4+阅读 · 今天14:00
具身AI安全综述:风险、攻击与防御
专知会员服务
3+阅读 · 今天12:02
DeepSeek 版Claude Code,免费小白安装教程来了!
专知会员服务
13+阅读 · 5月5日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员