PRISM：面向推测采样草稿模型的参数化推理重构 (PRISM: Parametrically Refactoring Inference for Speculative Sampling Draft Models) - 专知论文

会员服务 ·

0

解码 · 参数化 · 缩放 · 解码方法 · 系统 ·

PRISM: Parametrically Refactoring Inference for Speculative Sampling Draft Models

翻译：PRISM：面向推测采样草稿模型的参数化推理重构

Xuliang Wang,Yuetao Chen,Maochan Zhen,Fang Liu,Xinzhou Zheng,Xingwu Liu,Hong Xu,Ming Li

Large Language Models (LLMs), constrained by their auto-regressive nature, suffer from slow decoding. Speculative decoding methods have emerged as a promising solution to accelerate LLM decoding, attracting attention from both systems and AI research communities. Recently, the pursuit of better draft quality has driven a trend toward parametrically larger draft models, which inevitably introduces substantial computational overhead. While existing work attempts to balance the trade-off between prediction accuracy and compute latency, we address this fundamental dilemma through architectural innovation. We propose PRISM, which disaggregates the computation of each predictive step across different parameter sets, refactoring the computational pathways of draft models to successfully decouple model capacity from inference cost. Through extensive experiments, we demonstrate that PRISM outperforms all existing draft architectures, achieving exceptional acceptance lengths while maintaining minimal draft latency for superior end-to-end speedup. We also re-examine scaling laws with PRISM, revealing that PRISM scales more effectively with expanding data volumes than other draft architectures. Through rigorous and fair comparison, we show that PRISM boosts the decoding throughput of an already highly optimized inference engine by more than 2.6x.

翻译：大型语言模型（LLMs）受限于其自回归特性，存在解码速度缓慢的问题。推测解码方法作为一种加速LLM解码的有效方案，已引起系统和人工智能研究领域的广泛关注。近期，为提升草稿质量，研究趋势倾向于采用参数规模更大的草稿模型，但这不可避免地带来了显著的计算开销。现有工作试图在预测精度与计算延迟之间寻求平衡，而本研究通过架构创新从根本上解决这一矛盾。我们提出PRISM方法，其将每个预测步骤的计算分解至不同的参数集，通过重构草稿模型的计算路径，成功实现了模型容量与推理成本的解耦。大量实验表明，PRISM在保持极低草稿延迟的同时，实现了卓越的接受长度，其性能超越所有现有草稿架构，获得了优异的端到端加速效果。我们进一步基于PRISM重新审视缩放定律，发现相比其他草稿架构，PRISM在数据规模扩展时表现出更优的缩放效率。通过严格公平的对比实验，我们证明PRISM可将已高度优化的推理引擎的解码吞吐量提升2.6倍以上。

0

相关内容

大语言模型高效推理中的动态模型路由与级联技术综述

大语言模型高效推理中的动态模型路由与级联技术综述

专知会员服务

14+阅读 · 3月6日

【普林斯顿博士论文】大型模型的高效推理

【普林斯顿博士论文】大型模型的高效推理

专知会员服务

23+阅读 · 2025年8月10日

大型语言模型推理引擎的综述：优化与效率的视角

大型语言模型推理引擎的综述：优化与效率的视角

专知会员服务

22+阅读 · 2025年5月13日

高效大语言模型推理服务综述

高效大语言模型推理服务综述

专知会员服务

18+阅读 · 2025年4月30日

高效推理的集约化探索：大语言模型推理优化综述

高效推理的集约化探索：大语言模型推理优化综述

专知会员服务

33+阅读 · 2025年4月1日

什么是后训练？大语言模型训练后优化方法综述，87页pdf

什么是后训练？大语言模型训练后优化方法综述，87页pdf

专知会员服务

54+阅读 · 2025年3月11日

通过逻辑推理赋能大语言模型：综述

通过逻辑推理赋能大语言模型：综述

专知会员服务

32+阅读 · 2025年2月24日

大型语言模型高效推理综述

大型语言模型高效推理综述

专知会员服务

64+阅读 · 2024年4月23日

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

专知会员服务

98+阅读 · 2023年11月13日

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

专知会员服务

27+阅读 · 2023年3月10日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

「因果推理」概述论文，13页pdf

「因果推理」概述论文，13页pdf

专知

16+阅读 · 2021年3月20日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

【学界】机器学习模型的“可解释性”到底有多重要？

【学界】机器学习模型的“可解释性”到底有多重要？

GAN生成式对抗网络

12+阅读 · 2018年3月3日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

基于参数和结构优化的置信规则库推理方法研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

3+阅读 · 2014年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

RecThinker: An Agentic Framework for Tool-Augmented Reasoning in Recommendation

Arxiv

0+阅读 · 3月10日

Abductive Reasoning with Syllogistic Forms in Large Language Models

Arxiv

0+阅读 · 3月6日

AbstRaL: Augmenting LLMs' Reasoning by Reinforcing Abstract Thinking

Arxiv

0+阅读 · 2月23日

IMAGINE: Integrating Multi-Agent System into One Model for Complex Reasoning and Planning

Arxiv

0+阅读 · 2月10日

From Rows to Reasoning: A Retrieval-Augmented Multimodal Framework for Spreadsheet Understanding

Arxiv

0+阅读 · 2月9日

SDFP: Speculative Decoding with FIT-Pruned Models for Training-Free and Plug-and-Play LLM Acceleration

Arxiv

0+阅读 · 2月5日

Beyond Tokens: Semantic-Aware Speculative Decoding for Efficient Inference by Probing Internal States

Arxiv

0+阅读 · 2月4日

SpecFLASH: A Latent-Guided Semi-autoregressive Speculative Decoding Framework for Efficient Multimodal Generation

Arxiv

0+阅读 · 2月3日

Didactic to Constructive: Turning Expert Solutions into Learnable Reasoning

Arxiv

0+阅读 · 2月2日

SVIP: Towards Verifiable Inference of Open-source Large Language Models

Arxiv

0+阅读 · 1月31日

VIP会员

文章信息

相关主题

最新内容

2026 年 Agentic AI 工程师完全指南：一份系统化的学习路线图

2026 年 Agentic AI 工程师完全指南：一份系统化的学习路线图

专知会员服务

8+阅读 · 4月14日

内省扩散语言模型

内省扩散语言模型

专知会员服务

3+阅读 · 4月14日

美伊停火协议：评估、各方反应及美国会面临的问题

美伊停火协议：评估、各方反应及美国会面临的问题

专知会员服务

4+阅读 · 4月14日

国外反无人机系统与技术动态

国外反无人机系统与技术动态

专知会员服务

3+阅读 · 4月14日

世界无人无线电情报系统经验分析与实验实现（研究论文）

世界无人无线电情报系统经验分析与实验实现（研究论文）

专知会员服务

5+阅读 · 4月14日

大规模作战行动中的战术作战评估（研究论文）

大规模作战行动中的战术作战评估（研究论文）

专知会员服务

6+阅读 · 4月14日

（中文长文）城市战与小部队城市战术：来自俄乌战争的观察

（中文长文）城市战与小部队城市战术：来自俄乌战争的观察

专知会员服务

4+阅读 · 4月14日

未来的海战无人自主系统

未来的海战无人自主系统

专知会员服务

3+阅读 · 4月14日

美军多域作战现状分析：战略、概念还是幻想？

美军多域作战现状分析：战略、概念还是幻想？

专知会员服务

5+阅读 · 4月14日

（中文万字长文）美智库：针对伊朗的防空作战分析（报告）

（中文万字长文）美智库：针对伊朗的防空作战分析（报告）

专知会员服务

19+阅读 · 4月14日

无人机与反无人机系统（书籍）

无人机与反无人机系统（书籍）

专知会员服务

19+阅读 · 4月14日

（中文万字长文）2025-2026年乌克兰无人机拦截技术演进：反无人机技术、项目、效果、西方援助

（中文万字长文）2025-2026年乌克兰无人机拦截技术演进：反无人机技术、项目、效果、西方援助

专知会员服务

7+阅读 · 4月14日

美陆军2026条令：安全与机动支援

美陆军2026条令：安全与机动支援

专知会员服务

8+阅读 · 4月14日

【牛津博士论文】以语言为接口的医学影像表示学习

【牛津博士论文】以语言为接口的医学影像表示学习

专知会员服务

12+阅读 · 4月13日

基于大语言模型的医疗推理研究：综述与 MR-Bench 基准测试

基于大语言模型的医疗推理研究：综述与 MR-Bench 基准测试

专知会员服务

10+阅读 · 4月13日

相关VIP内容

大语言模型高效推理中的动态模型路由与级联技术综述

大语言模型高效推理中的动态模型路由与级联技术综述

专知会员服务

14+阅读 · 3月6日

【普林斯顿博士论文】大型模型的高效推理

【普林斯顿博士论文】大型模型的高效推理

专知会员服务

23+阅读 · 2025年8月10日

大型语言模型推理引擎的综述：优化与效率的视角

大型语言模型推理引擎的综述：优化与效率的视角

专知会员服务

22+阅读 · 2025年5月13日

高效大语言模型推理服务综述

高效大语言模型推理服务综述

专知会员服务

18+阅读 · 2025年4月30日

高效推理的集约化探索：大语言模型推理优化综述

高效推理的集约化探索：大语言模型推理优化综述

专知会员服务

33+阅读 · 2025年4月1日

什么是后训练？大语言模型训练后优化方法综述，87页pdf

什么是后训练？大语言模型训练后优化方法综述，87页pdf

专知会员服务

54+阅读 · 2025年3月11日

通过逻辑推理赋能大语言模型：综述

通过逻辑推理赋能大语言模型：综述

专知会员服务

32+阅读 · 2025年2月24日

大型语言模型高效推理综述

大型语言模型高效推理综述

专知会员服务

64+阅读 · 2024年4月23日

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

专知会员服务

98+阅读 · 2023年11月13日

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

专知会员服务

27+阅读 · 2023年3月10日

热门VIP内容

开通专知VIP会员享更多权益服务

内省扩散语言模型

国外反无人机系统与技术动态

2026 年 Agentic AI 工程师完全指南：一份系统化的学习路线图

美伊停火协议：评估、各方反应及美国会面临的问题

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

「因果推理」概述论文，13页pdf

「因果推理」概述论文，13页pdf

专知

16+阅读 · 2021年3月20日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

【学界】机器学习模型的“可解释性”到底有多重要？

【学界】机器学习模型的“可解释性”到底有多重要？

GAN生成式对抗网络

12+阅读 · 2018年3月3日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

RecThinker: An Agentic Framework for Tool-Augmented Reasoning in Recommendation

Arxiv

0+阅读 · 3月10日

Abductive Reasoning with Syllogistic Forms in Large Language Models

Arxiv

0+阅读 · 3月6日

AbstRaL: Augmenting LLMs' Reasoning by Reinforcing Abstract Thinking

Arxiv

0+阅读 · 2月23日

IMAGINE: Integrating Multi-Agent System into One Model for Complex Reasoning and Planning

Arxiv

0+阅读 · 2月10日

From Rows to Reasoning: A Retrieval-Augmented Multimodal Framework for Spreadsheet Understanding

Arxiv

0+阅读 · 2月9日

SDFP: Speculative Decoding with FIT-Pruned Models for Training-Free and Plug-and-Play LLM Acceleration

Arxiv

0+阅读 · 2月5日

Beyond Tokens: Semantic-Aware Speculative Decoding for Efficient Inference by Probing Internal States

Arxiv

0+阅读 · 2月4日

SpecFLASH: A Latent-Guided Semi-autoregressive Speculative Decoding Framework for Efficient Multimodal Generation

Arxiv

0+阅读 · 2月3日

Didactic to Constructive: Turning Expert Solutions into Learnable Reasoning

Arxiv

0+阅读 · 2月2日

SVIP: Towards Verifiable Inference of Open-source Large Language Models

Arxiv

0+阅读 · 1月31日

相关基金

基于参数和结构优化的置信规则库推理方法研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

3+阅读 · 2014年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员