Large language model (LLM)-powered assistants have recently integrated memory mechanisms that record user preferences, leading to more personalized and user-aligned responses. However, irrelevant personalized memories are often introduced into the context, interfering with the LLM's intent understanding. To comprehensively investigate the dual effects of personalization, we develop RPEval, a benchmark comprising a personalized intent reasoning dataset and a multi-granularity evaluation protocol. RPEval reveals the widespread phenomenon of irrational personalization in existing LLMs and, through error pattern analysis, illustrates its negative impact on user experience. Finally, we introduce RP-Reasoner, which treats memory utilization as a pragmatic reasoning process, enabling the selective integration of personalized information. Experimental results demonstrate that our method significantly outperforms carefully designed baselines on RPEval, and resolves 80% of the bad cases observed in a large-scale commercial personalized assistant, highlighting the potential of pragmatic reasoning to mitigate irrational personalization. Our benchmark is publicly available at https://github.com/XueyangFeng/RPEval.


翻译:基于大语言模型(LLM)的智能助手近期集成了记录用户偏好的记忆机制,从而能够生成更具个性化且与用户需求更契合的回应。然而,不相关的个性化记忆常被引入上下文,干扰大语言模型对用户意图的理解。为全面探究个性化带来的双重效应,我们开发了RPEval基准,该基准包含一个个性化意图推理数据集和一个多粒度评估方案。RPEval揭示了现有大语言模型中普遍存在的非理性个性化现象,并通过错误模式分析阐明了其对用户体验的负面影响。最后,我们提出了RP-Reasoner方法,该方法将记忆利用视为一种语用推理过程,从而能够选择性地整合个性化信息。实验结果表明,我们的方法在RPEval基准上显著优于精心设计的基线模型,并在一个大规模商用个性化助手中解决了80%的劣质案例,凸显了语用推理在缓解非理性个性化方面的潜力。我们的基准已公开于 https://github.com/XueyangFeng/RPEval。

0
下载
关闭预览

相关内容

大型语言模型中隐性与显性偏见的综合研究
专知会员服务
16+阅读 · 2025年11月25日
大语言模型智能体的评估与基准:综述
专知会员服务
46+阅读 · 2025年7月31日
个性化大型语言模型综述:进展与未来方向
专知会员服务
43+阅读 · 2025年2月18日
大规模语言模型的个性化:综述
专知会员服务
43+阅读 · 2024年11月4日
迈向大语言模型偏好学习的统一视角综述
专知会员服务
24+阅读 · 2024年9月7日
大规模语言模型的人类偏好学习综述
专知会员服务
42+阅读 · 2024年6月19日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
原创 | Attention Modeling for Targeted Sentiment
黑龙江大学自然语言处理实验室
25+阅读 · 2017年11月5日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关VIP内容
大型语言模型中隐性与显性偏见的综合研究
专知会员服务
16+阅读 · 2025年11月25日
大语言模型智能体的评估与基准:综述
专知会员服务
46+阅读 · 2025年7月31日
个性化大型语言模型综述:进展与未来方向
专知会员服务
43+阅读 · 2025年2月18日
大规模语言模型的个性化:综述
专知会员服务
43+阅读 · 2024年11月4日
迈向大语言模型偏好学习的统一视角综述
专知会员服务
24+阅读 · 2024年9月7日
大规模语言模型的人类偏好学习综述
专知会员服务
42+阅读 · 2024年6月19日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员