Long-context autoregressive decoding remains expensive because each decoding step must repeatedly process a growing history. We observe a consistent pattern during decoding: within a sentence, and more generally within a short semantically coherent span, the dominant attention support often remains largely stable. Motivated by this observation, we propose Slow-Fast Inference (SFI), a training-free decoding framework that decouples generation into frequent low-cost fast steps and occasional dense-attention slow steps. Fast steps reuse a compact sparse memory for efficient decoding. Slow steps are triggered near semantic boundaries. At slow steps, the model revisits the broader context and uses the Selector to refresh the selected memory for subsequent fast steps. Across the evaluated context lengths, SFI delivers approximately $1.6\times$--$14.4\times$ higher decoding throughput while generally maintaining quality on par with the full-KV baseline across long-context and long-CoT settings. Because SFI is training-free and applies directly to existing checkpoints, it offers a practical path to reducing inference cost for contemporary autoregressive reasoning models in long-context, long-horizon, and agentic workloads.


翻译:长上下文自回归解码仍然代价高昂,因为每个解码步骤必须重复处理不断增长的历史信息。我们观察到解码过程中存在一种一致模式:在一个句子内,更一般地说,在一个短语义连贯片段内,主导注意力支持通常保持高度稳定。受此观察启发,我们提出慢-快推理(SFI),一种免训练的解码框架,将生成过程解耦为频繁的低成本快速步骤与偶发的密集注意力慢速步骤。快速步骤复用紧凑的稀疏记忆以实现高效解码。慢速步骤在语义边界附近触发。在慢速步骤中,模型重新审视更广泛的上下文,并使用选择器(Selector)刷新所选记忆以供后续快速步骤使用。在所有评估的上下文长度上,SFI在长上下文和长思维链(CoT)设置中普遍保持与全键值缓存基线相当质量的同时,实现了约$1.6\times$至$14.4\times$的解码吞吐量提升。由于SFI是免训练的且可直接应用于现有模型检查点,它为当代自回归推理模型在长上下文、长视野和智能体工作负载中降低推理成本提供了一条实用路径。

0
下载
关闭预览

相关内容

【CVPR2025】重新思考长时视频理解中的时序检索
专知会员服务
13+阅读 · 2025年4月6日
复杂推理与慢思考
专知会员服务
49+阅读 · 2025年3月11日
模仿、探索与自我提升:慢思考推理系统的复现之路
专知会员服务
29+阅读 · 2024年12月14日
【ACL2024】通过直接偏好优化的自训练提升链式思维推理
自动结构变分推理,Automatic structured variational inference
专知会员服务
41+阅读 · 2020年2月10日
长文本表示学习概述
云栖社区
15+阅读 · 2019年5月9日
Transformer-XL:释放注意力模型的潜力
谷歌开发者
31+阅读 · 2019年2月19日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
《多域战场上反制小型无人机系统》150页
专知会员服务
2+阅读 · 19分钟前
战场人工智能:增强陆地作战能力的发现与要求
专知会员服务
0+阅读 · 29分钟前
以人工智能为中心的指挥控制
专知会员服务
0+阅读 · 52分钟前
《基于深度强化学习的反无人机技术研究》178页
“史诗怒火”行动与“AI中心战”模式的浮现
专知会员服务
9+阅读 · 6月10日
【CVPR2026教程】扩散模型的解析理解
专知会员服务
3+阅读 · 6月10日
马赛克战:俄乌战场透析
专知会员服务
16+阅读 · 6月10日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员