大语言模型在线推理的效率优化,过去主要关注如何降低每个解码步骤的计算成本,比如通过量化、剪枝、稀疏注意力或者低秩分解。但这些方法通常对所有生成的token施加一个相同的计算预算。一个显而易见但通常被忽略的问题是:不同token的生成难度差异很大。有些token在上下文中具有高可预测性,而另一些则依赖长程依赖或精确的中间计算。一种统一的、静态的压缩策略,往往在简单token上浪费算力,却在困难token上算力不足。
针对这一痛点,来自康奈尔大学的Yash Akhauri和Mohamed S. Abdelfattah提出了一项新的工作:Self-Optimizing Language Models,被ICML 2026接收。这篇论文的核心创新在于,它不是预设一个静态的压缩率,而是训练一个轻量级的策略网络,让它在每一步解码时,根据语言模型内部的状态,动态决定当前token要使用多少计算资源。这种动态预算分配不仅覆盖一种效率机制,而是统一控制了 token 级的注意力稀疏性、结构化 MLP 激活剪枝,以及激活量化位宽。 这篇论文值得所有从事 LLM 推理效率优化的工程师与研究者仔细阅读。它揭示了一个以往被低估的优化维度:不需要改动基座模型的预训练权重,也不需要设计复杂的启发式规则,只需要引入一个很小的策略网络,就可以在保持甚至提升语言模型质量的同时,显著改善计算效率的利用。论文中展示了在 MMLU 评估上,SOL 相比均匀预算分配策略最高提升 7.3% 的准确率,这个结果在匹配甚至更低的计算预算下实现,令人印象深刻。
现有的大语言模型推理效率研究主要致力于降低每个解码步骤的成本(例如通过量化、剪枝或稀疏注意力),但这些方法通常对每一个生成的token都应用统一的计算预算。实践中,token的难度差异很大,因此静态的压缩往往在简单的步骤上过度计算,在困难的步骤上计算不足。本文研究自回归解码中的动态预算分配:在一个模型内部学习每个token应该花费多少计算量。
Self-Optimizing Language Models (SOL) 将一个冻结的 LLM 与一个轻量的策略网络配对。该策略网络读取 LLM 的隐藏状态,并在每个解码步骤选择一个离散的效率动作。这些动作可以联合控制:(i) token 级的注意力稀疏性,(ii) MLP 中的结构化激活剪枝,以及 (iii) 激活量化位宽,同时保持基座模型的权重不变。 策略使用组相对策略优化(Group-Relative Policy Optimization, GRPO)在教师强迫(teacher-forced)片段上训练:token 序列保持不变,同时采样多个反事实的计算调度(即仅针对相同 token 路径变化效率动作的调度),并在相同的监督下比较它们的似然。奖励函数对语言模型质量与软惩罚进行权衡,软惩罚鼓励片段平均预算使用量匹配请求的目标预算。 在各种模型变体和计算体制下,SOL 在匹配预算时优于静态分配和强随机调度搜索,为推理效率优化提供了一个补充的新轴。SOL 在所有实验中发现了更优的质量-效率帕累托前沿,并在 MMLU 上相比均匀预算分配策略最高提升了 7.3% 的准确率。
大规模语言模型的部署带来了巨大的推理成本,由此推动了许多提升单步解码效率的研究工作。典型的例子包括:量化(减少权重或激活值的位宽)、剪枝(移除不重要的权重或结构)、稀疏注意力(只让每个 token 关注上下文的一小部分)等。尽管这些技术各有成效,但它们有一个共同的假设:对于一个给定的语言模型,每个生成的 token 应该分配相同或非常相似的计算预算。 引言明确指出,这种“静态分配”与实际解码过程是矛盾的。在实际生成中,不同 token 的难度天差地别:例如,“the”、“and”这类高频词汇的生成,与一个需要精确推理的推理链 token 相比,计算需求完全不同。如果采用统一的压缩策略,要么为了照顾简单 token 而过度压缩,导致困难 token 质量下降;要么为了照顾困难 token 而采用宽松的压缩率,在简单 token 上浪费大量计算。这种“一刀切”的方法使得 LLM 在实际推理中往往要么过计算,要么欠计算。 论文进一步指出,逐 token 的效率决策在时间上是相互影响的。因为当前 token 可以被未来的 token 所关注。如果在时间步 t 过度压缩或丢弃了看似安全的信息,可能会在几步之后导致质量严重降解。这意味着计算分配不能当作一个独立的、逐步骤的启发式问题,而应该被建模为一个顺序决策问题。 为了解决这一挑战,作者提出了 Self-Optimizing Language Models (SOL)。核心思想是冻结基座 LLM,并添加一个极其轻量的策略网络。这个策略网络读取 LLM 的隐藏状态以及一些简单的进度/预算特征,然后在每个解码步骤选择一个离散的效率动作。每个动作通过控制:(i) token 级注意力稀疏性、(ii) 结构化 MLP 激活剪枝和/或 (iii) 激活量化位宽,来实例化同一个模型内部的不同计算机制。 一个关键的贡献是部署时的可控性。SOL 不是为每个模型硬编码一个工作点,而是允许策略网络在推理时接收一个用户定义的计算预算。这使得一个训练好的策略可以动态适应不同场景下的性能与效率需求。 总而言之,引言非常清晰地回答了核心问题:为什么静态预算分配是低效的,以及 SOL 如何通过学习式的、联合控制的顺序决策来解决这一问题。
SOL 的整体流水线可以分为三个核心部分:策略网络的设计、动作空间的定义,以及基于强化学习的训练方法。
SOL 的核心是将一个给定的、经过预训练的大语言模型视为黑箱(或白箱),冻结其所有权重。在此基础上,引入一个轻量的策略网络。这个策略网络的架构被设计为一个小型自回归 Transformer。其输入包括两方面特征:
基于上述观察,策略网络输出一个离散的动作。这个动作决定了当前步骤的计算效率设置。原文强调,策略网络引入的开销极小,其计算成本与 LLM 本身的推理成本相比几乎可以忽略不计(论文图 1 中展示了控制开销与控制时长成正比,例如每 16 个解码步骤产生一次开销)。
SOL 的动作空间不是一个单一维度的选择,而是一个能够联合控制三种不同效率机制的离散集合。论文描述了每个动作如何实例化一个具体的计算机制:
这三种机制可以联合控制。策略网络输出的动作是一个联合离散索引,它同时指定了 kappa、rho 和量化位宽的具体数值,形成一种配置组合。论文实验部分展示了不同粒度的动作集,例如 8 个联合动作、27 个联合动作(三个维度各三个选项)和 1560 个联合动作(通过更细粒度的离散化实现)。
如何训练这个策略网络是一个关键挑战。直接使用来自人类反馈的强化学习(RLHF)或者标准的策略梯度方法,会因为语言模型生成的离散 token 而引入高方差和训练不稳定。SOL 采用了一种简洁而有效的方案:
这种方法的核心优势在于,它完全在教师强迫环境下运行,避开了在线生成带来的文本多样性问题,同时通过反事实采样高效地探索了不同的计算调度空间。
原文未明确说明具体的实验设置,例如明确提及使用的全部语言模型的大小列表、数据集详情或超参数表。但从论文正文与图注中,可以提取出下面这些实验设计元素和关键结果。
论文主要使用两个评估维度来衡量 SOL 的性能:
Self-Optimizing Language Models 的主要贡献可以总结为以下四点:
原文未明确说明局限性。但根据论文的设定和领域一般认知,我们可以推断一些操作上的限制:
这篇论文启发了一个新的研究方向:计算预算的组织形式与分配策略本身也是一个值得精心设计的变量。它鼓励未来研究不再仅仅是追求“更便宜的基座模型”,而是追求“更聪明的计算调度器”。此外,SOL 这种“冻结主体 + 小策略控制”的范式,跨越了模型训练的边界,使得推理优化成为可立即部署且高度可控的环节。这项工作推动 LLM 推理效率从“静态压缩”迈向“动态调度”的新时代。
原文链接:http://arxiv.org/abs/2605.10875v1 原文代码仓库:https://github.com/akhauriyash/SOL