Personalization is crucial for enhancing both the effectiveness and user satisfaction of language technologies, particularly in information-seeking tasks like question answering. Current approaches for personalizing large language models (LLMs) often rely on retrieval-augmented generation (RAG), followed by reinforcement learning with scalar reward signals to teach models how to use retrieved personal context. We believe that these scalar rewards sometimes provide weak, non-instructive feedback, limiting learning efficiency and personalization quality. We introduce VAC, a novel framework for personalized response generation that replaces scalar rewards with natural language feedback (NLF) that are generated conditioned on the user profiles and the question narratives. NLF serves as a rich and actionable supervision signal, allowing the policy model to iteratively refine its outputs and internalize effective personalization strategies. Training alternates between optimizing the feedback model and fine-tuning the policy model on the improved responses, resulting in a policy model that no longer requires feedback at inference. Evaluation on the LaMP-QA benchmark that consists of three diverse domains demonstrates consistent and significant improvements over the state-of-the-art results. Human evaluations further confirm the superior quality of the generated responses. These results demonstrate that NLF provides more effective signals for optimizing personalized question answering.


翻译:个性化对于提升语言技术的效能及用户满意度至关重要,尤其是在问答等信息检索任务中。当前针对大型语言模型(LLM)个性化的方法,通常依赖检索增强生成(RAG),并辅以基于标量奖励信号的强化学习,以训练模型如何使用检索到的个性化上下文。我们认为,这些标量奖励有时提供的反馈较弱且缺乏指导性,从而限制了学习效率与个性化质量。我们提出了VAC,一个用于个性化回复生成的新颖框架,该框架用基于用户画像与问题叙事的自然语言反馈(NLF)替代了标量奖励。NLF作为一种丰富且可操作的监督信号,使策略模型能够迭代优化其输出,并内化有效的个性化策略。训练过程交替进行,包括优化反馈模型以及基于改进后的回复对策略模型进行微调,最终得到的策略模型在推理时不再需要反馈。在涵盖三个不同领域的LaMP-QA基准测试上的评估表明,该方法相较于现有最先进结果取得了持续且显著的改进。人工评估进一步证实了生成回复的卓越质量。这些结果证明,NLF为优化个性化问答提供了更有效的信号。

0
下载
关闭预览

相关内容

大语言模型遇上知识图谱:问答系统中的融合与机遇
专知会员服务
30+阅读 · 2025年5月30日
个性化大型语言模型综述:进展与未来方向
专知会员服务
43+阅读 · 2025年2月18日
定制化大型语言模型的图检索增强生成综述
专知会员服务
38+阅读 · 2025年1月28日
强化学习增强的大型语言模型:综述
专知会员服务
52+阅读 · 2024年12月17日
大规模语言模型的个性化:综述
专知会员服务
43+阅读 · 2024年11月4日
迈向大语言模型偏好学习的统一视角综述
专知会员服务
24+阅读 · 2024年9月7日
【论文笔记】基于强化学习的人机对话
专知
20+阅读 · 2019年9月21日
学会原创 | 自然语言的语义表示学习方法与应用
中国人工智能学会
11+阅读 · 2019年3月7日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
从语言学到深度学习NLP,一文概述自然语言处理
人工智能学家
13+阅读 · 2018年1月28日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
美国军方使用的10种反无人机武器(2026年更新)
专知会员服务
1+阅读 · 50分钟前
认知战与交战性质的改变:神经战略视角
专知会员服务
5+阅读 · 5月8日
相关资讯
【论文笔记】基于强化学习的人机对话
专知
20+阅读 · 2019年9月21日
学会原创 | 自然语言的语义表示学习方法与应用
中国人工智能学会
11+阅读 · 2019年3月7日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
从语言学到深度学习NLP,一文概述自然语言处理
人工智能学家
13+阅读 · 2018年1月28日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员