During language acquisition, children successively learn to categorize phonemes, identify words, and combine them with syntax to form new meaning. While the development of this behavior is well characterized, we still lack a unifying computational framework to explain its underlying neural representations. Here, we investigate whether and when phonemic, lexical, and syntactic representations emerge in the activations of artificial neural networks during their training. Our results show that both speech- and text-based models follow a sequence of learning stages: during training, their neural activations successively build subspaces, where the geometry of the neural activations represents phonemic, lexical, and syntactic structure. While this developmental trajectory qualitatively relates to children's, it is quantitatively different: These algorithms indeed require two to four orders of magnitude more data for these neural representations to emerge. Together, these results show conditions under which major stages of language acquisition spontaneously emerge, and hence delineate a promising path to understand the computations underpinning language acquisition.


翻译:在语言习得过程中,儿童依次学会对音位进行分类、识别词汇,并通过句法组合词汇以构建新意义。尽管这种行为发展已得到充分描述,我们仍缺乏统一的计算框架来解释其背后的神经表征机制。本研究探讨了人工神经网络在训练过程中,其激活状态是否及何时涌现出音位、词汇和句法表征。实验结果表明,基于语音和文本的模型均遵循分阶段的学习序列:在训练过程中,其神经激活状态逐步构建出表征子空间,其中神经激活的几何结构分别对应音位、词汇和句法结构。虽然这种发展轨迹在质性与儿童语言习得相似,但在量化层面存在差异:这些算法需要多出2至4个数量级的数据量才能使神经表征得以涌现。综合而言,这些结果揭示了语言习得主要阶段自发涌现的条件,从而为理解语言习得背后的计算机制开辟了前景广阔的研究路径。

0
下载
关闭预览

相关内容

人工神经网络(Artificial Neural Network,即ANN),它从信息处理角度对人脑神经元网络进行抽象,建立某种简单模型,按不同的连接方式组成不同的网络。在工程与学术界也常直接简称为神经网络或类神经网络。神经网络是一种运算模型,由大量的节点(或称神经元)之间相互联接构成。每个节点代表一种特定的输出函数,称为激励函数(activation function)。每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重,这相当于人工神经网络的记忆。网络的输出则依网络的连接方式,权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近,也可能是对一种逻辑策略的表达。
微软《神经语音合成》综述论文,63页pdf530篇文献
专知会员服务
30+阅读 · 2021年7月3日
专知会员服务
42+阅读 · 2021年6月2日
网络表示学习概述
机器学习与推荐算法
19+阅读 · 2020年3月27日
书单 | 语音研究进阶指南
微软研究院AI头条
12+阅读 · 2019年3月22日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
图神经网络最近这么火,不妨看看我们精选的这七篇
人工智能前沿讲习班
37+阅读 · 2018年12月10日
人工神经网络
平均机器
15+阅读 · 2017年7月17日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
0+阅读 · 1月27日
VIP会员
相关VIP内容
微软《神经语音合成》综述论文,63页pdf530篇文献
专知会员服务
30+阅读 · 2021年7月3日
专知会员服务
42+阅读 · 2021年6月2日
相关资讯
网络表示学习概述
机器学习与推荐算法
19+阅读 · 2020年3月27日
书单 | 语音研究进阶指南
微软研究院AI头条
12+阅读 · 2019年3月22日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
图神经网络最近这么火,不妨看看我们精选的这七篇
人工智能前沿讲习班
37+阅读 · 2018年12月10日
人工神经网络
平均机器
15+阅读 · 2017年7月17日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员