Generative recommendation commonly adopts a two-stage pipeline in which a learnable tokenizer maps items to discrete token sequences (i.e. identifiers) and an autoregressive generative recommender model (GRM) performs prediction based on these identifiers. Recent tokenizers further incorporate collaborative signals so that items with similar user-behavior patterns receive similar codes, substantially improving recommendation quality. However, real-world environments evolve continuously: new items cause identifier collision and shifts, while new interactions induce collaborative drift in existing items (e.g., changing co-occurrence patterns and popularity). Fully retraining both tokenizer and GRM is often prohibitively expensive, yet naively fine-tuning the tokenizer can alter token sequences for the majority of existing items, undermining the GRM's learned token-embedding alignment. To balance plasticity and stability for collaborative tokenizers, we propose DACT, a Drift-Aware Continual Tokenization framework with two stages: (i) tokenizer fine-tuning, augmented with a jointly trained Collaborative Drift Identification Module (CDIM) that outputs item-level drift confidence and enables differentiated optimization for drifting and stationary items; and (ii) hierarchical code reassignment using a relaxed-to-strict strategy to update token sequences while limiting unnecessary changes. Experiments on three real-world datasets with two representative GRMs show that DACT consistently achieves better performance than baselines, demonstrating effective adaptation to collaborative evolution with reduced disruption to prior knowledge. Our implementation is publicly available at https://github.com/HomesAmaranta/DACT for reproducibility.


翻译:生成式推荐通常采用两阶段流程:可学习的分词器将物品映射为离散分词序列(即标识符),而自回归生成式推荐模型(GRM)则基于这些标识符进行预测。近期分词器进一步融合协同信号,使得具有相似用户行为模式的物品获得相近的编码,从而显著提升推荐质量。然而,真实环境持续演进:新物品导致标识符冲突与偏移,新交互引发现存物品的协同漂移(例如共现模式与流行度的变化)。完全重训练分词器与GRM往往成本高昂,但简单地微调分词器会改变多数现存物品的分词序列,破坏GRM已习得的分词-嵌入对齐关系。为平衡协同分词器的可塑性与稳定性,我们提出DACT——一种漂移感知持续分词框架,包含两阶段:(i)分词器微调阶段,辅以联合训练的协同漂移识别模块(CDIM),该模块输出物品级别的漂移置信度,从而对漂移物品与静态物品实施差异化优化;(ii)分层编码重分配阶段,采用先松弛后严格的策略更新分词序列,同时限制不必要的变更。在三个真实数据集上使用两种代表性GRM进行的实验表明,DACT持续取得优于基线模型的性能,展现出对协同演化的有效适应能力,同时减弱对已有知识的破坏。为促进可复现性,我们的实现已在https://github.com/HomesAmaranta/DACT公开。

0
下载
关闭预览

相关内容

将一个汉字序列切分成一个一个单独的词
基于扩散模型和流模型的推理时引导生成技术
专知会员服务
17+阅读 · 2025年4月30日
【MetaAI】从扩展视觉分词器用于重建与生成中的经验
专知会员服务
13+阅读 · 2025年1月18日
生成式推荐最新进展
专知会员服务
25+阅读 · 2025年1月8日
生成式信息检索综述
专知会员服务
35+阅读 · 2024年6月5日
生成式推荐: 迈向下一代推荐系统新范式
专知会员服务
49+阅读 · 2023年4月15日
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
深度学习在推荐系统中的应用综述(最全)
七月在线实验室
17+阅读 · 2018年5月5日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
1+阅读 · 54分钟前
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
0+阅读 · 今天14:31
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关VIP内容
基于扩散模型和流模型的推理时引导生成技术
专知会员服务
17+阅读 · 2025年4月30日
【MetaAI】从扩展视觉分词器用于重建与生成中的经验
专知会员服务
13+阅读 · 2025年1月18日
生成式推荐最新进展
专知会员服务
25+阅读 · 2025年1月8日
生成式信息检索综述
专知会员服务
35+阅读 · 2024年6月5日
生成式推荐: 迈向下一代推荐系统新范式
专知会员服务
49+阅读 · 2023年4月15日
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员