LLM routing aims to achieve a favorable quality--cost trade-off by dynamically assigning easy queries to smaller models and harder queries to stronger ones. However, across both unimodal and multimodal settings, we uncover a pervasive yet underexplored failure mode in existing routers: as the user's cost budget increases, routers systematically default to the most capable and most expensive model even when cheaper models already suffice. As a result, current routers under-utilize small models, wasting computation and monetary cost and undermining the core promise of routing; we term this phenomenon routing collapse. We attribute routing collapse to an objective--decision mismatch: many routers are trained to predict scalar performance scores, whereas routing decisions ultimately depend on discrete comparisons among candidate models. Consequently, small prediction errors can flip relative orderings and trigger suboptimal selections. To bridge this gap, we propose EquiRouter, a decision-aware router that directly learns model rankings, restoring the role of smaller models and mitigating routing collapse. On RouterBench, EquiRouter reduces cost by about 17\% at GPT-4-level performance compared to the strongest prior router. Our code is available at https://github.com/AIGNLAI/EquiRouter.


翻译:LLM路由旨在通过将简单查询动态分配给较小模型、将较难查询分配给较强模型,实现质量与成本间的有利权衡。然而,在单模态与多模态场景中,我们发现现有路由器普遍存在一种尚未被充分探索的失效模式:随着用户成本预算增加,路由器会系统性地默认选择能力最强且最昂贵的模型,即便更廉价的模型已足以胜任。这导致当前路由器未能充分利用小模型,造成计算资源与资金成本的浪费,并削弱了路由的核心价值;我们将此现象称为路由崩溃。我们将路由崩溃归因于目标与决策的错配:许多路由器被训练用于预测标量性能分数,而路由决策最终取决于候选模型间的离散比较。因此,微小的预测误差可能颠覆相对排序,引发次优选择。为弥合这一差距,我们提出EquiRouter——一种直接学习模型排序的决策感知路由器,它能恢复小模型的作用并缓解路由崩溃。在RouterBench测试中,相较于先前最强的路由器,EquiRouter在保持GPT-4级别性能的同时降低了约17%的成本。我们的代码发布于https://github.com/AIGNLAI/EquiRouter。

0
下载
关闭预览

相关内容

PlanGenLLMs:大型语言模型规划能力的最新综述
专知会员服务
33+阅读 · 2025年5月18日
利用多个大型语言模型:关于LLM集成的调研
专知会员服务
35+阅读 · 2025年2月27日
动态可视化指南:一步步拆解LSTM和GRU
论智
17+阅读 · 2018年10月25日
放弃 RNN/LSTM 吧,因为真的不好用!望周知~
人工智能头条
19+阅读 · 2018年4月24日
干货|从LSTM到Seq2Seq
全球人工智能
15+阅读 · 2018年1月9日
阿里流行音乐趋势预测-深度学习LSTM网络实现代码分享
机器学习研究会
11+阅读 · 2017年12月5日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
PlanGenLLMs:大型语言模型规划能力的最新综述
专知会员服务
33+阅读 · 2025年5月18日
利用多个大型语言模型:关于LLM集成的调研
专知会员服务
35+阅读 · 2025年2月27日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员