Despite the remarkable performance of large-scale generative models in open-domain conversation, they are known to be less practical for building real-time conversation systems due to high latency. On the other hand, retrieval models could return responses with much lower latency but show inferior performance to the large-scale generative models since the conversation quality is bounded by the pre-defined response set. To take advantage of both approaches, we propose a new training method called G2R (Generative-to-Retrieval distillation) that preserves the efficiency of a retrieval model while leveraging the conversational ability of a large-scale generative model by infusing the knowledge of the generative model into the retrieval model. G2R consists of two distinct techniques of distillation: the data-level G2R augments the dialogue dataset with additional responses generated by the large-scale generative model, and the model-level G2R transfers the response quality score assessed by the generative model to the score of the retrieval model by the knowledge distillation loss. Through extensive experiments including human evaluation, we demonstrate that our retrieval-based conversation system trained with G2R shows a substantially improved performance compared to the baseline retrieval model while showing significantly lower inference latency than the large-scale generative models.


翻译:尽管在开放式对话中大规模基因变异模型的显著表现,但众所周知,由于高悬浮度,在建立实时对话系统方面,这些模型对于建立实时对话系统的实用性不那么明显。另一方面,检索模型可以以低得多的延迟度返回反应,但与大规模基因变异模型相比,其性能却不如大规模基因变异模型,因为对话质量受预先界定的整套反应组合的约束。为了利用这两种方法,我们提议一种新的培训方法,即G2R(从恢复到检索蒸馏法),以保持检索模型的效率,同时利用大规模基因变异模型的谈话能力,将基因变异模型的知识引入检索模型。G2R由两种不同的蒸馏技术组成:数据级G2R(G2R)将对话数据集与由大规模基因变异模型产生的额外反应加强,而模型G2R(G2R)则将由基因变异模型评估的响应质量评分转到知识蒸馏模型的恢复模型的得分。通过广泛的实验,包括人类评价,我们证明我们的恢复-基于基因变异模型,同时与G2R(G2R)模型相比,在大幅度改进了大规模的基因变真化模型。

0
下载
关闭预览

相关内容

在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。条件概率分布可以由生成模型根据贝叶斯定理形成。
专知会员服务
58+阅读 · 2021年3月15日
最新【深度生成模型】Deep Generative Models,104页ppt
专知会员服务
71+阅读 · 2020年10月24日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
从GE工业互联网到中国工业互联网
未来产业促进会
4+阅读 · 2019年5月5日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【重磅】100大产业链全景图
全球创新论坛
11+阅读 · 2018年12月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
自然语言处理顶会EMNLP2018接受论文列表!
专知
87+阅读 · 2018年8月26日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
Arxiv
0+阅读 · 2021年10月16日
Arxiv
9+阅读 · 2021年3月3日
VIP会员
最新内容
2025年大语言模型进展报告
专知会员服务
1+阅读 · 今天13:30
多智能体协作机制
专知会员服务
1+阅读 · 今天13:26
非对称优势:美海军开发低成本反无人机技术
专知会员服务
4+阅读 · 今天4:39
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
6+阅读 · 今天2:48
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
9+阅读 · 今天2:43
【NTU博士论文】3D人体动作生成
专知会员服务
7+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
8+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
14+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
10+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
5+阅读 · 4月24日
相关VIP内容
专知会员服务
58+阅读 · 2021年3月15日
最新【深度生成模型】Deep Generative Models,104页ppt
专知会员服务
71+阅读 · 2020年10月24日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
Top
微信扫码咨询专知VIP会员