Task-oriented dialog systems enable users to accomplish tasks using natural language. State-of-the-art systems respond to users in the same way regardless of their personalities, although personalizing dialogues can lead to higher levels of adoption and better user experiences. Building personalized dialog systems is an important, yet challenging endeavor and only a handful of works took on the challenge. Most existing works rely on supervised learning approaches and require laborious and expensive labeled training data for each user profile. Additionally, collecting and labeling data for each user profile is virtually impossible. In this work, we propose a novel framework, P-ToD, to personalize task-oriented dialog systems capable of adapting to a wide range of user profiles in an unsupervised fashion using a zero-shot generalizable reward function. P-ToD uses a pre-trained GPT-2 as a backbone model and works in three phases. Phase one performs task-specific training. Phase two kicks off unsupervised personalization by leveraging the proximal policy optimization algorithm that performs policy gradients guided by the zero-shot generalizable reward function. Our novel reward function can quantify the quality of the generated responses even for unseen profiles. The optional final phase fine-tunes the personalized model using a few labeled training examples. We conduct extensive experimental analysis using the personalized bAbI dialogue benchmark for five tasks and up to 180 diverse user profiles. The experimental results demonstrate that P-ToD, even when it had access to zero labeled examples, outperforms state-of-the-art supervised personalization models and achieves competitive performance on BLEU and ROUGE metrics when compared to a strong fully-supervised GPT-2 baseline


翻译:面向任务的对话系统使用户能够通过自然语言完成任务。当前最先进的系统无论用户个性如何,都以相同方式回应,而个性化对话能提升系统采用率与用户体验。构建个性化对话系统是一项重要但充满挑战的任务,仅有少数研究涉足该领域。现有工作大多依赖监督学习方法,需要为每个用户画像收集昂贵且费时的人工标注训练数据。此外,为每个用户画像收集并标注数据实际上难以实现。本文提出新型框架P-ToD,通过零样本可泛化奖励函数,以无监督方式实现对广泛用户画像的自适应个性化面向任务对话系统。P-ToD采用预训练GPT-2作为骨干模型,分三个阶段运行:第一阶段进行任务特定训练;第二阶段通过近端策略优化算法,结合零样本可泛化奖励函数引导策略梯度,启动无监督个性化过程。该新型奖励函数能够量化生成回复的质量,即使对于未见过的用户画像同样有效。可选最终阶段利用少量标注训练样本对个性化模型进行微调。我们使用个性化bAbI对话基准在五个任务及多达180种不同用户画像上开展了广泛实验分析。结果表明,即使在零标注样本情况下,P-ToD仍优于现有最优监督个性化模型,在与强监督GPT-2基线的BLEU和ROUGE指标对比中展现出竞争力。

0
下载
关闭预览

相关内容

【WWW2021】合作记忆网络的个性化任务导向对话系统
专知会员服务
15+阅读 · 2021年2月17日
近期必读的六篇 EMNLP 2020【知识图谱】相关论文和代码
专知会员服务
44+阅读 · 2020年11月10日
专知会员服务
30+阅读 · 2020年9月18日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
97+阅读 · 2020年5月31日
【WWW2020-华为诺亚方舟论文】元学习推荐系统MetaSelector
专知会员服务
56+阅读 · 2020年2月10日
专知会员服务
88+阅读 · 2020年1月20日
EMNLP 2022 | ClidSum: 跨语言对话摘要
PaperWeekly
3+阅读 · 2022年11月25日
SIGIR2022 | 从Prompt的角度考量强化学习推荐系统
机器学习与推荐算法
1+阅读 · 2022年5月24日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
VIP会员
最新内容
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
0+阅读 · 21分钟前
网状网络及其在军事领域的运用
专知会员服务
4+阅读 · 今天6:18
无美国参与的欧洲战争方式(万字长文)
专知会员服务
4+阅读 · 今天5:54
《国防领域敏感性分析白皮书》
专知会员服务
5+阅读 · 今天3:42
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
4+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
8+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
6+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
8+阅读 · 6月24日
相关基金
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员