Current LLM-based conversational recommender systems (CRS) primarily optimize recommendation accuracy and user satisfaction. We identify an underexplored vulnerability in which recommendation outputs may negatively impact users by violating personalized safety constraints, when individualized safety sensitivities -- such as trauma triggers, self-harm history, or phobias -- are implicitly inferred from the conversation but not respected during recommendation. We formalize this challenge as personalized CRS safety and introduce SafeRec, a new benchmark dataset designed to systematically evaluate safety risks in LLM-based CRS under user-specific constraints. To further address this problem, we propose SafeCRS, a safety-aware training framework that integrates Safe Supervised Fine-Tuning (Safe-SFT) with Safe Group reward-Decoupled Normalization Policy Optimization (Safe-GDPO) to jointly optimize recommendation quality and personalized safety alignment. Extensive experiments on SafeRec demonstrate that SafeCRS reduces safety violation rates by up to 96.5% relative to the strongest recommendation-quality baseline while maintaining competitive recommendation quality. Warning: This paper contains potentially harmful and offensive content.


翻译:当前基于大语言模型(LLM)的对话推荐系统(CRS)主要优化推荐准确性和用户满意度。我们发现一个尚未充分探索的脆弱性:当从对话中隐式推断出个体化的安全敏感性(如创伤触发因素、自残史或恐惧症)但在推荐过程中未被尊重时,推荐输出可能因违反个性化安全约束而对用户产生负面影响。我们将这一挑战形式化为个性化CRS安全问题,并引入SafeRec——一个专为系统评估基于LLM的CRS在用户特定约束下安全风险而设计的新基准数据集。为应对此问题,我们提出SafeCRS,这是一个安全感知的训练框架,它将安全监督微调(Safe-SFT)与安全组奖励解耦归一化策略优化(Safe-GDPO)相结合,以联合优化推荐质量与个性化安全对齐。在SafeRec上的大量实验表明,相较于最强的推荐质量基线模型,SafeCRS将安全违规率降低了高达96.5%,同时保持了有竞争力的推荐质量。警告:本文包含可能有害及冒犯性内容。

0
下载
关闭预览

相关内容

探索大型语言模型在网络安全中的作用:一项系统综述
专知会员服务
21+阅读 · 2025年4月27日
关于大语言模型驱动的推荐系统智能体的综述
专知会员服务
29+阅读 · 2025年2月17日
大规模语言模型增强推荐系统:分类、趋势、应用与未来
专知会员服务
40+阅读 · 2024年12月22日
大型语言模型网络安全综述
专知会员服务
68+阅读 · 2024年5月12日
初学者系列:推荐系统Wide & Deep Learning详解
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
知识在检索式对话系统的应用
微信AI
32+阅读 · 2018年9月20日
推荐系统概述
Linux爱好者
20+阅读 · 2018年9月6日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
《新兴技术武器化及其对全球风险的影响》
专知会员服务
8+阅读 · 4月29日
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
19+阅读 · 4月29日
智能体化世界建模:基础、能力、规律及展望
专知会员服务
11+阅读 · 4月28日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员