Generative recommendation plays a crucial role in personalized systems, predicting users' future interactions from their historical behavior sequences. A critical yet underexplored factor in training these models is data augmentation, the process of constructing training data from user interaction histories. By shaping the training distribution, data augmentation directly and often substantially affects model generalization and performance. Nevertheless, in much of the existing work, this process is simplified, applied inconsistently, or treated as a minor design choice, without a systematic and principled understanding of its effects. Motivated by our empirical finding that different augmentation strategies can yield large performance disparities, we conduct an in-depth analysis of how they reshape training distributions and influence alignment with future targets and generalization to unseen inputs. To systematize this design space, we propose GenPAS, a generalized and principled framework that models augmentation as a stochastic sampling process over input-target pairs with three bias-controlled steps: sequence sampling, target sampling, and input sampling. This formulation unifies widely used strategies as special cases and enables flexible control of the resulting training distribution. Our extensive experiments on benchmark and industrial datasets demonstrate that GenPAS yields superior accuracy, data efficiency, and parameter efficiency compared to existing strategies, providing practical guidance for principled training data construction in generative recommendation. Our code is available at https://github.com/snap-research/GenPAS.


翻译:生成式推荐在个性化系统中扮演着关键角色,它通过用户的历史行为序列预测其未来的交互行为。在训练这类模型时,一个至关重要却尚未被充分探索的因素是数据增强,即从用户交互历史中构建训练数据的过程。通过塑造训练数据分布,数据增强直接且往往显著地影响模型的泛化能力和性能。然而,在现有的大部分研究中,这一过程常被简化、应用不一致或被视为次要的设计选择,缺乏对其影响的系统性和原理性理解。基于我们实证发现不同增强策略会导致显著性能差异的动机,我们深入分析了这些策略如何重塑训练分布、影响与未来目标的匹配度以及对未见输入的泛化能力。为系统化这一设计空间,我们提出了GenPAS——一个广义且基于原理的框架,该框架将增强过程建模为对输入-目标对的随机采样过程,包含三个偏差可控的步骤:序列采样、目标采样和输入采样。这一形式化框架将广泛使用的策略统一为特例,并能灵活控制最终生成的训练分布。我们在基准数据集和工业数据集上进行的大量实验表明,与现有策略相比,GenPAS在准确性、数据效率和参数效率方面均表现出优越性,为生成式推荐中基于原理的训练数据构建提供了实用指导。我们的代码发布于 https://github.com/snap-research/GenPAS。

0
下载
关闭预览

相关内容

数学上,序列是被排成一列的对象(或事件);这样每个元素不是在其他元素之前,就是在其他元素之后。这里,元素之间的顺序非常重要。
生成式推荐综述:数据、模型与任务
专知会员服务
19+阅读 · 2025年11月4日
生成式推荐最新进展
专知会员服务
25+阅读 · 2025年1月8日
大语言模型在序列推荐中的应用
专知会员服务
19+阅读 · 2024年11月12日
最新《生成式数据增强的统一框架》综述,85页pdf
专知会员服务
65+阅读 · 2023年10月8日
【ICLR2022】序列生成的目标侧数据增强
专知会员服务
23+阅读 · 2022年2月14日
专知会员服务
74+阅读 · 2021年7月21日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
谷歌推出新型数据增强算法:AutoAugment
论智
20+阅读 · 2018年6月6日
深度学习在推荐系统中的应用综述(最全)
七月在线实验室
17+阅读 · 2018年5月5日
深度学习在推荐系统上的应用
架构文摘
13+阅读 · 2018年2月22日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
VIP会员
相关VIP内容
生成式推荐综述:数据、模型与任务
专知会员服务
19+阅读 · 2025年11月4日
生成式推荐最新进展
专知会员服务
25+阅读 · 2025年1月8日
大语言模型在序列推荐中的应用
专知会员服务
19+阅读 · 2024年11月12日
最新《生成式数据增强的统一框架》综述,85页pdf
专知会员服务
65+阅读 · 2023年10月8日
【ICLR2022】序列生成的目标侧数据增强
专知会员服务
23+阅读 · 2022年2月14日
专知会员服务
74+阅读 · 2021年7月21日
相关资讯
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员