Large language model (LLM)-based generative list-wise recommendation has advanced rapidly, but decoding remains sequential and thus latency-prone. To accelerate inference without changing the target distribution, speculative decoding (SD) uses a small draft model to propose several next tokens at once and a target LLM to verify and accept the longest prefix, skipping multiple steps per round. In generative recommendation, however, each item is represented by multiple semantic-ID tokens, often with separators, and current drafts typically treat these tokens uniformly. This overlooks two practical facts: (i) a token's semantics depend on its within-item slot, and (ii) uncertainty tends to increase with speculation depth. Without modeling these effects, SD's speedups can be limited. We introduce PAD-Rec, Position-Aware Drafting for generative Recommendation, a lightweight module that augments the draft model with two complementary signals. Item position embeddings explicitly encode the within-item slot of each token, strengthening structural awareness. Step position embeddings encode the draft step, allowing the model to adapt to depth-dependent uncertainty and improve proposal quality. To harmonize these signals with base features, we add simple gates: a learnable coefficient for item slots and a context-driven gate for draft steps. The module is trainable, easy to integrate with standard draft models, and adds negligible inference overhead. Extensive experiments on four real-world datasets show up to 3.1x wall-clock speedup and about 5% average wall-clock speedup gain over strong SD baselines, while largely preserving recommendation quality.


翻译:基于大语言模型(LLM)的生成式列表推荐已取得快速发展,但其解码过程仍具有顺序性,导致高延迟。为在不改变目标分布的情况下加速推理,推测解码(SD)采用小型草稿模型一次性提议多个后续令牌,再由目标LLM验证并接受最长前缀,每轮可跳过多个步骤。然而在生成式推荐中,每个项目由多个语义ID令牌(常含分隔符)表示,现有草稿方法通常统一对待这些令牌,忽视了以下两个实际因素:(i) 令牌的语义取决于其在项目内的槽位;(ii) 不确定性随推测深度增加。未建模这些效应会限制SD的加速效果。我们提出PAD-Rec——面向生成式推荐的位置感知草稿模块,通过两种互补信号增强草稿模型:项目位置嵌入显式编码令牌在项目内的槽位,强化结构感知能力;步骤位置嵌入编码草稿步骤,使模型适应深度相关的不确定性,提升提议质量。为协调这些信号与基础特征,我们引入简单门控机制:项目槽位采用可学习系数,草稿步骤采用上下文驱动门控。该模块可训练、易于集成至标准草稿模型,且推理开销可忽略。在四个真实数据集上的大量实验表明,与强SD基线相比,可实现高达3.1倍的实际加速,平均实际加速增益约5%,同时基本保持推荐质量。

0
下载
关闭预览

相关内容

高效大语言模型推理服务综述
专知会员服务
18+阅读 · 2025年4月30日
大语言模型在序列推荐中的应用
专知会员服务
19+阅读 · 2024年11月12日
《大型语言模型加速生成技术》最新综述
专知会员服务
50+阅读 · 2024年5月25日
大型语言模型高效推理综述
专知会员服务
64+阅读 · 2024年4月23日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关主题
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关资讯
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员