ACL 2018 | 百度提出交互式语言学习新方法:让智能体具备单次概念学习能力

2018 年 5 月 10 日 机器之心

选自arXiv

作者:Haichao Zhang等

机器之心编译

参与:王淑婷、路


近日,百度的研究者提出了一种交互式语言学习新方法,可通过会话游戏的方式帮助智能体学习语言,并使其具备单次概念学习的能力。目前该研究的论文已被 ACL 2018 大会接收。


语言是人类最自然的交流方式之一,通常被视为人类智能的基础。因此,对智能体来说,能够使用语言与人类进行交流至关重要。深度神经网络监督训练虽然在语言习得方面取得了令人欣慰的进展,但其在获取训练数据统计信息方面还存在问题。并且,它对新场景缺乏适应性,难以在避免低效的重新训练和灾难性遗忘的情况下灵活地获取新知识。此外,深度神经网络模型的监督训练需要大量的训练样本,而许多有趣的应用需要从少量数据中快速学习,这对监督训练来说是一个更大的挑战。


相比之下,人类的学习方式与监督设置截然不同(Skinner, 1957; Kuhl, 2004)。首先,人类在现实世界中采取行动,并从其行动的结果中吸取教训(Skinner, 1957; Kuhl, 2004; Petursdottir and Mellor, 2016)。对于运动等机械性动作,结果主要遵循几何和机械原理;对于语言,人类通过说话的方式来实现,其结果通常表现为来自会话伙伴(即教师)的口头回应和其它行为反馈(例如点头)。这些类型的反馈通常包含关于如何在随后的会话中提高语言技能的信息信号,在人类的语言习得过程中发挥了重要作用(Kuhl, 2004; Petursdottir and Mellor, 2016)。其次,人类显示出从少量数据中学习新概念的显著能力(Borovsky等,2003)。儿童仅从一个样本中似乎就能够做出推论,并在概念之间划出合理的界限,这足以证明人类的单次学习能力(Lake 等,2011 年)。


人类的语言习得过程和单次学习能力作为人类智能的一种表现形式是非常引人注目的,且对设计新的计算语言学习环境和算法具有启发意义。本论文采用会话作为语言学习交互环境(Skinner,1957)和获取新知识的自然接口(Baker 等,2002年)。论文作者提出了一种方法用于单次概念学习能力的交互式语言习得。该方法允许智能体从零开始学习基础语言,获得主动搜索和记忆新目标信息的可迁移技能,并仅仅通过与教师的会话交互来提高单次学习能力。


图 1:交互式语言和单次概念学习。


在 S_1 阶段,教师可以提问、回答学习者的问题、做出陈述或不说话。教师还根据学习者的回应提供奖励作为回馈。学习者在理解教师的句子和通过解释器和说话人作出回应之间交替进行。图左:一开始,学习者几乎说不出任何有意义的话。图中:接着,它可以产生有意义的交互回应。图右:经过训练,当遇到樱桃图像时(学习者在训练过程中未曾见过,因此樱桃对它来说是一个新事物),学习者会就此提问(「这是什么」),并且在被教导过一次之后能够对另一个樱桃的实例做出正确的表述(这是樱桃」)。


表 1:教师句子的语法。


图 2:网络结构。


(a) 整体结构图示。在每个时间步中,学习者使用解释器模块对教师的句子进行编码。视觉感知也被编码并用作从外部存储器检索信息的密钥。解释器 RNN 的最后状态将通过控制器传递。控制器的输出将被添加到输入并用作说话人 RNN 的初始状态。解释器 RNN 将利用从感知输入提取的重要性(用透明度来表示)加权信息来更新外部存储器。mix」表示词嵌入向量的混合。(b)解释器 RNN 的结构(顶部)和说话人 RNN 的结构 (底部)。解释器 RNN 和说话人 RNN 共享参数。


图3:没有图像变化的单词级任务训练期间的奖励演变。


图4:没有图像变化的情况下单词级任务的测试性能。在动物数据集上训练模型,在水果数据集上进行测试。


图5:在动物数据集上以图像变化率 0.5(实线)和没有图像变化(虚线)训练出的模型在不同测试图像变化率下,在水果数据集上执行单词级任务的测试成功率和奖励。


图7:在新类别上提出方法的示例结果。学习者可以询问关于新类别的信息,并通过单词级注意力 η 和内容重要性 gmem,使用解释器从教师的句子中提取有用的信息。说话人通过融合门(fusion gate)g 在 RNN(小 g )和外部存储器(大 g )的信号之间自如切换,以生成句子回应。


图8:具有图像变化(变化率 = 0.5)句子级任务的测试性能。


表4:不同方法的对话实例。


论文:Interactive Language Acquisition with One-shot Visual Concept Learning through a Conversational Game 



论文链接:https://arxiv.org/abs/1805.00462


摘要:构建能够与人类进行自然语言交流、学习人类的智能体具有重要价值。监督语言学习主要受获取训练数据统计信息能力的限制,并且难以适应新场景,也难以在避免低效的重新训练和灾难性遗忘的情况下灵活地获取新知识。我们强调会话互动是语言习得和获取新知识的天然接口,并提出了一种通过互动会话游戏共同模仿和强化真实语言学习的方法。使用这种方法训练的智能体可以通过提出关于新目标的问题来主动获取信息,并且通过单次学习即可在随后的对话中使用刚刚学到的知识。与其他方法进行比较的结果验证了该方法的有效性。 



本文为机器之心编译,转载请联系本公众号获得授权

✄------------------------------------------------

加入机器之心(全职记者/实习生):hr@jiqizhixin.com

投稿或寻求报道:content@jiqizhixin.com

广告&商务合作:bd@jiqizhixin.com

登录查看更多
0

相关内容

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习
专知会员服务
85+阅读 · 2020年6月9日
专知会员服务
214+阅读 · 2019年8月30日
多项NLP任务新SOTA,Facebook提出预训练模型BART
机器之心
22+阅读 · 2019年11月4日
机器也能学会如何学习?——元学习介绍
AINLP
19+阅读 · 2019年9月22日
ICCV2019|基于全局类别表征的小样本学习
极市平台
11+阅读 · 2019年9月21日
陶建华、杨明浩谈多模态人机对话:交互式学习能力愈发重要
中国科学院自动化研究所
31+阅读 · 2019年7月17日
理解人类推理的深度学习
论智
19+阅读 · 2018年11月7日
Question Generation by Transformers
Arxiv
5+阅读 · 2019年9月14日
Learning Embedding Adaptation for Few-Shot Learning
Arxiv
17+阅读 · 2018年12月10日
Adversarial Transfer Learning
Arxiv
12+阅读 · 2018年12月6日
Joint Monocular 3D Vehicle Detection and Tracking
Arxiv
8+阅读 · 2018年12月2日
Multi-task Deep Reinforcement Learning with PopArt
Arxiv
4+阅读 · 2018年9月12日
Meta-Learning with Latent Embedding Optimization
Arxiv
6+阅读 · 2018年7月16日
VIP会员
相关VIP内容
【CVPR2020-北京大学】自适应间隔损失的提升小样本学习
专知会员服务
85+阅读 · 2020年6月9日
专知会员服务
214+阅读 · 2019年8月30日
相关资讯
多项NLP任务新SOTA,Facebook提出预训练模型BART
机器之心
22+阅读 · 2019年11月4日
机器也能学会如何学习?——元学习介绍
AINLP
19+阅读 · 2019年9月22日
ICCV2019|基于全局类别表征的小样本学习
极市平台
11+阅读 · 2019年9月21日
陶建华、杨明浩谈多模态人机对话:交互式学习能力愈发重要
中国科学院自动化研究所
31+阅读 · 2019年7月17日
理解人类推理的深度学习
论智
19+阅读 · 2018年11月7日
Top
微信扫码咨询专知VIP会员