具有不同能力、成本和领域专长的超大规模语言模型(LLMs)正经历爆发式增长,这使得在推理阶段进行“智能模型选择”成为迫切需求。虽然轻量化模型足以应对常规查询,但复杂任务仍需性能更强的模型支撑。然而,静态模型部署无法兼顾输入查询的复杂度和领域属性,从而导致性能欠佳及成本激增。作为应对挑战的方案,能够根据查询特征自适应选择模型的动态路由系统应运而生。

本文对当前最前沿的多 LLM 路由与级联方法进行了系统性分析。与在单一模型内部进行路由的混合专家(MoE)架构不同,我们侧重于研究在多个独立训练的 LLM 之间进行路由的技术。本文涵盖了多种路由范式,包括:基于查询难度、人类偏好、聚类、不确定性量化、强化学习、多模态以及级联机制。针对每种范式,我们分析了其代表性方法并探讨了核心权衡(Trade-offs)。

除分类体系外,我们还提出了一个概念框架,从三个维度对路由系统进行刻画:何时决策(决策时机)、利用何种信息(输入特征)以及如何计算(执行逻辑)。这一视角凸显了实际系统往往具有组合性,即在特定运行约束下集成多种范式。 我们的分析表明,高效的多 LLM 路由需要在多个竞争目标之间取得平衡。最优路由策略的选择取决于部署环境与计算约束。通过战略性地利用各模型的专业化能力并最大化效率增益,设计精良的路由系统甚至能超越最强大的单一模型。同时,开发能够跨异构架构、多模态及多样化应用场景泛化的路由机制,仍是当前面临的公开挑战。

1 引言 (Introduction)

1.1 问题与动机 (Problem and Motivation)

大语言模型的生产级部署面临着性能与成本之间权衡的根本困境。用户查询的复杂度差异巨大,从简单的叙述性事实提问到复杂的跨步推理问题不等。当使用单一模型处理所有请求时,若将简单查询路由至强大的模型,会造成不必要的资源浪费;而复杂查询则可能超出小模型的能力极限。 近期,多 LLM 部署领域的进展引入了动态路由系统(Dynamic Routing Systems)来应对这一挑战。这些系统能够分析每一个查询,并从具有不同能力、成本和领域专长的模型池中进行选择。通过使计算资源与查询需求相匹配,自适应路由可以在维持或提升输出质量的同时,有效降低成本。

1.2 路由与级联 (Routing and Cascading)

本综述涵盖了推理阶段自适应模型选择的两类互补方法: * 模型路由 (Model Routing):分析每个输入并根据查询特征选择最合适的模型。路由层仅做单次决策,将查询映射到可用资源池中的某一个模型。 * 模型级联 (Model Cascading):采用顺序执行机制,首先尝试使用更小、更快的模型进行推理,仅当基于质量评估认为初始响应不足时,才升级到更大、能力更强的模型。

两类方法均旨在通过查询与模型的精准匹配,优化性能-成本的权衡。在生产系统中,通常会将路由与级联策略相结合以实现效率最大化。

1.3 研究范围与组织结构 (Scope and Organization)

本综述侧重于推理阶段独立训练的 LLM 之间的路由技术,不包括在单一模型内部进行路由的混合专家(MoE)架构。我们根据路由策略将相关方法组织为六大范式,同时也承认某些方法可能横跨多个类别: * 难度感知路由(第 2 节):基于评估的查询复杂度进行路由。 * 人类偏好对齐路由(第 3 节):利用来自人类反馈的偏好数据。 * 基于聚类的路由(第 4 节):使用无监督学习对相似查询进行分组。 * 强化学习路由(第 5 节):通过在线反馈学习路由策略。 * 基于不确定性的路由(第 6 节):基于模型置信度评估进行路由。 * 级联(第 7 节):多模型顺序处理方法。

此外,我们简要探讨了多模态模型路由的研究(第 8 节),并涵盖了包括基准测试和指标在内的评估方法(第 9 节)。最后,我们讨论了公开挑战与未来方向(第 10 节),为推动高效多 LLM 部署的研究奠定基础。

1.4 LLM 路由的概念设计空间 (Conceptual Design Space for LLM Routing)

上述范式为组织和理解文献提供了基础,但在实践中,现实系统往往同时借鉴多种范式。为了补充基于范式的分类,路由方法还可以从更广泛的维度进行刻画: * 决策时机 (When):即何时做出路由决策。系统可依赖生成前决策生成后决策多阶段过程。生成前路由在输出任何内容前选择模型,完全依赖输入查询的属性;生成后路由则在产生初始响应后做出决策,将输出质量或置信度作为核心信号。此外,某些方法将路由嵌入连续的多阶段过程中,随着生成的推进不断重新选择模型。 * 信息来源 (What):路由机制利用信号的丰富程度各不相同。最简单的方法仅作用于查询本身,利用词汇或语义特征刻画需求。更完备的系统会额外引入模型元数据(如成本、延迟或领域专长)来引导选择。生成后方法则进一步整合响应级信号,如置信度得分、Token 概率或验证器输出。部分系统还会随时间积累外部反馈,根据用户交互或下游任务表现调整路由行为。 * 计算方式 (How):路由决策的计算复杂度差异显著。一端是简单的阈值规则或基于成本的启发式算法,无需训练即可直接应用于推理;另一端则是基于历史表现数据训练的监督分类器,用于预测哪个模型最适合处理给定查询。更复杂的方法采用自适应策略,通过与环境的持续交互更新路由行为。实践中,许多系统会组合这些机制,例如使用分类器做初步路由,并辅以阈值规则在级联中触发升级逻辑。

这些维度与前述范式并非相互独立。例如,聚类和难度感知方法通常是作用于查询级信号的生成前方法,而基于不确定性的方法和级联通常涉及响应级信号的生成后决策。有趣的是,级联方法倾向于分层使用这些独立技术,以实现从平衡性能成本到对输入输出实施安全措施等多样化目标。这种维度视角揭示了系统间的真实重叠,因为现实部署极少局限于单一范式,通常是结合多种路由策略以适应多样化的查询需求、运行约束及演进的用户需求。

成为VIP会员查看完整内容
1

相关内容

大语言模型是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本,还能够深入理解文本含义,处理各种自然语言任务,如文本摘要、问答、翻译等。2023年,大语言模型及其在人工智能领域的应用已成为全球科技研究的热点,其在规模上的增长尤为引人注目,参数量已从最初的十几亿跃升到如今的一万亿。参数量的提升使得模型能够更加精细地捕捉人类语言微妙之处,更加深入地理解人类语言的复杂性。在过去的一年里,大语言模型在吸纳新知识、分解复杂任务以及图文对齐等多方面都有显著提升。随着技术的不断成熟,它将不断拓展其应用范围,为人类提供更加智能化和个性化的服务,进一步改善人们的生活和生产方式。
大语言模型中的隐式推理:综合综述
专知会员服务
32+阅读 · 2025年9月4日
大型语言模型推理引擎的综述:优化与效率的视角
专知会员服务
21+阅读 · 2025年5月13日
高效大语言模型推理服务综述
专知会员服务
18+阅读 · 2025年4月30日
高效推理的集约化探索:大语言模型推理优化综述
专知会员服务
32+阅读 · 2025年4月1日
通过逻辑推理赋能大语言模型:综述
专知会员服务
32+阅读 · 2025年2月24日
大语言模型中的逻辑推理:综述
专知会员服务
48+阅读 · 2025年2月15日
大规模语言模型推理的进展综述
专知会员服务
56+阅读 · 2025年2月8日
大型语言模型网络安全综述
专知会员服务
67+阅读 · 2024年5月12日
大型语言模型高效推理综述
专知会员服务
64+阅读 · 2024年4月23日
「大型语言模型推理」综述
专知会员服务
95+阅读 · 2022年12月24日
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
超全总结:神经网络加速之量化模型 | 附带代码
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关VIP内容
大语言模型中的隐式推理:综合综述
专知会员服务
32+阅读 · 2025年9月4日
大型语言模型推理引擎的综述:优化与效率的视角
专知会员服务
21+阅读 · 2025年5月13日
高效大语言模型推理服务综述
专知会员服务
18+阅读 · 2025年4月30日
高效推理的集约化探索:大语言模型推理优化综述
专知会员服务
32+阅读 · 2025年4月1日
通过逻辑推理赋能大语言模型:综述
专知会员服务
32+阅读 · 2025年2月24日
大语言模型中的逻辑推理:综述
专知会员服务
48+阅读 · 2025年2月15日
大规模语言模型推理的进展综述
专知会员服务
56+阅读 · 2025年2月8日
大型语言模型网络安全综述
专知会员服务
67+阅读 · 2024年5月12日
大型语言模型高效推理综述
专知会员服务
64+阅读 · 2024年4月23日
「大型语言模型推理」综述
专知会员服务
95+阅读 · 2022年12月24日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员