大语言模型高效推理中的动态模型路由与级联技术综述

具有不同能力、成本和领域专长的超大规模语言模型（LLMs）正经历爆发式增长，这使得在推理阶段进行“智能模型选择”成为迫切需求。虽然轻量化模型足以应对常规查询，但复杂任务仍需性能更强的模型支撑。然而，静态模型部署无法兼顾输入查询的复杂度和领域属性，从而导致性能欠佳及成本激增。作为应对挑战的方案，能够根据查询特征自适应选择模型的动态路由系统应运而生。

本文对当前最前沿的多 LLM 路由与级联方法进行了系统性分析。与在单一模型内部进行路由的混合专家（MoE）架构不同，我们侧重于研究在多个独立训练的 LLM 之间进行路由的技术。本文涵盖了多种路由范式，包括：基于查询难度、人类偏好、聚类、不确定性量化、强化学习、多模态以及级联机制。针对每种范式，我们分析了其代表性方法并探讨了核心权衡（Trade-offs）。

除分类体系外，我们还提出了一个概念框架，从三个维度对路由系统进行刻画：何时决策（决策时机）、利用何种信息（输入特征）以及如何计算（执行逻辑）。这一视角凸显了实际系统往往具有组合性，即在特定运行约束下集成多种范式。我们的分析表明，高效的多 LLM 路由需要在多个竞争目标之间取得平衡。最优路由策略的选择取决于部署环境与计算约束。通过战略性地利用各模型的专业化能力并最大化效率增益，设计精良的路由系统甚至能超越最强大的单一模型。同时，开发能够跨异构架构、多模态及多样化应用场景泛化的路由机制，仍是当前面临的公开挑战。

1 引言 (Introduction)

1.1 问题与动机 (Problem and Motivation)

大语言模型的生产级部署面临着性能与成本之间权衡的根本困境。用户查询的复杂度差异巨大，从简单的叙述性事实提问到复杂的跨步推理问题不等。当使用单一模型处理所有请求时，若将简单查询路由至强大的模型，会造成不必要的资源浪费；而复杂查询则可能超出小模型的能力极限。近期，多 LLM 部署领域的进展引入了动态路由系统（Dynamic Routing Systems）来应对这一挑战。这些系统能够分析每一个查询，并从具有不同能力、成本和领域专长的模型池中进行选择。通过使计算资源与查询需求相匹配，自适应路由可以在维持或提升输出质量的同时，有效降低成本。

1.2 路由与级联 (Routing and Cascading)

本综述涵盖了推理阶段自适应模型选择的两类互补方法： * 模型路由 (Model Routing)：分析每个输入并根据查询特征选择最合适的模型。路由层仅做单次决策，将查询映射到可用资源池中的某一个模型。 * 模型级联 (Model Cascading)：采用顺序执行机制，首先尝试使用更小、更快的模型进行推理，仅当基于质量评估认为初始响应不足时，才升级到更大、能力更强的模型。

两类方法均旨在通过查询与模型的精准匹配，优化性能-成本的权衡。在生产系统中，通常会将路由与级联策略相结合以实现效率最大化。

1.3 研究范围与组织结构 (Scope and Organization)

本综述侧重于推理阶段独立训练的 LLM 之间的路由技术，不包括在单一模型内部进行路由的混合专家（MoE）架构。我们根据路由策略将相关方法组织为六大范式，同时也承认某些方法可能横跨多个类别： * 难度感知路由（第 2 节）：基于评估的查询复杂度进行路由。 * 人类偏好对齐路由（第 3 节）：利用来自人类反馈的偏好数据。 * 基于聚类的路由（第 4 节）：使用无监督学习对相似查询进行分组。 * 强化学习路由（第 5 节）：通过在线反馈学习路由策略。 * 基于不确定性的路由（第 6 节）：基于模型置信度评估进行路由。 * 级联（第 7 节）：多模型顺序处理方法。

此外，我们简要探讨了多模态模型路由的研究（第 8 节），并涵盖了包括基准测试和指标在内的评估方法（第 9 节）。最后，我们讨论了公开挑战与未来方向（第 10 节），为推动高效多 LLM 部署的研究奠定基础。

1.4 LLM 路由的概念设计空间 (Conceptual Design Space for LLM Routing)

上述范式为组织和理解文献提供了基础，但在实践中，现实系统往往同时借鉴多种范式。为了补充基于范式的分类，路由方法还可以从更广泛的维度进行刻画： * 决策时机 (When)：即何时做出路由决策。系统可依赖生成前决策、生成后决策或多阶段过程。生成前路由在输出任何内容前选择模型，完全依赖输入查询的属性；生成后路由则在产生初始响应后做出决策，将输出质量或置信度作为核心信号。此外，某些方法将路由嵌入连续的多阶段过程中，随着生成的推进不断重新选择模型。 * 信息来源 (What)：路由机制利用信号的丰富程度各不相同。最简单的方法仅作用于查询本身，利用词汇或语义特征刻画需求。更完备的系统会额外引入模型元数据（如成本、延迟或领域专长）来引导选择。生成后方法则进一步整合响应级信号，如置信度得分、Token 概率或验证器输出。部分系统还会随时间积累外部反馈，根据用户交互或下游任务表现调整路由行为。 * 计算方式 (How)：路由决策的计算复杂度差异显著。一端是简单的阈值规则或基于成本的启发式算法，无需训练即可直接应用于推理；另一端则是基于历史表现数据训练的监督分类器，用于预测哪个模型最适合处理给定查询。更复杂的方法采用自适应策略，通过与环境的持续交互更新路由行为。实践中，许多系统会组合这些机制，例如使用分类器做初步路由，并辅以阈值规则在级联中触发升级逻辑。

这些维度与前述范式并非相互独立。例如，聚类和难度感知方法通常是作用于查询级信号的生成前方法，而基于不确定性的方法和级联通常涉及响应级信号的生成后决策。有趣的是，级联方法倾向于分层使用这些独立技术，以实现从平衡性能成本到对输入输出实施安全措施等多样化目标。这种维度视角揭示了系统间的真实重叠，因为现实部署极少局限于单一范式，通常是结合多种路由策略以适应多样化的查询需求、运行约束及演进的用户需求。

成为VIP会员查看完整内容

相关内容

大语言模型

关注 65

大语言模型是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本，还能够深入理解文本含义，处理各种自然语言任务，如文本摘要、问答、翻译等。2023年，大语言模型及其在人工智能领域的应用已成为全球科技研究的热点，其在规模上的增长尤为引人注目，参数量已从最初的十几亿跃升到如今的一万亿。参数量的提升使得模型能够更加精细地捕捉人类语言微妙之处，更加深入地理解人类语言的复杂性。在过去的一年里，大语言模型在吸纳新知识、分解复杂任务以及图文对齐等多方面都有显著提升。随着技术的不断成熟，它将不断拓展其应用范围，为人类提供更加智能化和个性化的服务，进一步改善人们的生活和生产方式。

大语言模型中的隐式推理：综合综述

专知会员服务

32+阅读 · 2025年9月4日

大型语言模型推理引擎的综述：优化与效率的视角

专知会员服务

21+阅读 · 2025年5月13日

高效大语言模型推理服务综述

专知会员服务

18+阅读 · 2025年4月30日

高效推理的集约化探索：大语言模型推理优化综述

专知会员服务

32+阅读 · 2025年4月1日