Negative sampling is a pivotal technique in implicit collaborative filtering (CF) recommendation, enabling efficient and effective training by contrasting observed interactions with sampled unobserved ones. Recently, large language models (LLMs) have shown promise in recommender systems; however, research on LLM-empowered negative sampling remains underexplored. Existing methods heavily rely on textual information and task-specific fine-tuning, limiting practical applicability. To address this limitation, we propose a text-free and fine-tuning-free Dual-Tree LLM-enhanced Negative Sampling method (DTL-NS). It consists of two modules: (i) an offline false negative identification module that leverages hierarchical index trees to transform collaborative structural and latent semantic information into structured item-ID encodings for LLM inference, enabling accurate identification of false negatives; and (ii) a multi-view hard negative sampling module that combines user-item preference scores with item-item hierarchical similarities from these encodings to mine high-quality hard negatives, thus improving models' discriminative ability. Extensive experiments demonstrate the effectiveness of DTL-NS. For example, on the Amazon-sports dataset, DTL-NS outperforms the strongest baseline by 10.64% and 19.12% in Recall@20 and NDCG@20, respectively. Moreover, DTL-NS can be integrated into various implicit CF models and negative sampling methods, consistently enhancing their performance.


翻译:负采样是隐式协同过滤推荐中的关键技术,通过对比已观测交互与采样的未观测交互实现高效训练。近年来,大语言模型在推荐系统中展现出潜力,但基于LLM的负采样研究仍待深入。现有方法严重依赖文本信息与任务特定微调,限制了实际应用。为突破此局限,我们提出无需文本与微调的双树LLM增强负采样方法。该方法包含两个模块:(i)离线假负例识别模块,利用层次索引树将协同结构信息与潜在语义信息转化为结构化物品ID编码供LLM推理,实现精准假负例识别;(ii)多视图难负例采样模块,结合用户-物品偏好分数与物品-物品层次相似度挖掘高质量难负例,从而提升模型判别能力。大量实验验证了本方法的有效性:在Amazon-sports数据集上,Recall@20与NDCG@20指标分别超越最强基线10.64%与19.12%。此外,本方法可灵活集成于多种隐式协同过滤模型与负采样方法中,持续提升其性能。

0
下载
关闭预览

相关内容

自然语言处理领域中,判断两个单词是不是一对上下文词(context)与目标词(target),如果是一对,则是正样本,如果不是一对,则是负样本。采样得到一个上下文词和一个目标词,生成一个正样本(positive example),生成一个负样本(negative example),则是用与正样本相同的上下文词,再在字典中随机选择一个单词,这就是负采样(negative sampling)。
专知会员服务
43+阅读 · 2021年8月30日
【KDD2020】 半监督迁移协同过滤推荐
专知会员服务
20+阅读 · 2020年10月21日
浅析神经协同过滤NCF在推荐系统的应用
凡人机器学习
15+阅读 · 2020年10月17日
面试题:Word2Vec中为什么使用负采样?
七月在线实验室
46+阅读 · 2019年5月16日
大讲堂 | 知识图谱的嵌入:更好更快的负采样
AI研习社
13+阅读 · 2019年3月6日
推荐系统BAT面试题:说说协同过滤的原理
七月在线实验室
50+阅读 · 2019年1月30日
论文浅尝 | 基于深度强化学习的远程监督数据集的降噪
开放知识图谱
29+阅读 · 2019年1月17日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
专知会员服务
43+阅读 · 2021年8月30日
【KDD2020】 半监督迁移协同过滤推荐
专知会员服务
20+阅读 · 2020年10月21日
相关基金
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员