Living languages are shaped by a host of conflicting internal and external evolutionary pressures. While some of these pressures are universal across languages and cultures, others differ depending on the social and conversational context: language use in newspapers is subject to very different constraints than language use on social media. Prior distributional semantic work on English word emergence (neology) identified two factors correlated with creation of new words by analyzing a corpus consisting primarily of historical published texts (Ryskina et al., 2020, arXiv:2001.07740). Extending this methodology to contextual embeddings in addition to static ones and applying it to a new corpus of Twitter posts, we show that the same findings hold for both domains, though the topic popularity growth factor may contribute less to neology on Twitter than in published writing. We hypothesize that this difference can be explained by the two domains favouring different neologism formation mechanisms.


翻译:活语言受到多种相互冲突的内外部演化压力塑造。其中部分压力在语言和文化间具有普遍性,另一些则因社会与对话语境而异:报纸语言使用所受约束与社交媒体语言使用存在显著差异。先前关于英语词汇新生现象(neology)的分布语义研究,通过分析主要由历史出版文本构成的语料库,识别出两个与新词创造相关的因素(Ryskina等人,2020,arXiv:2001.07740)。本文将该方法扩展至上下文嵌入向量(除静态向量外),并应用于新的Twitter推文语料库,研究表明相同发现在两个领域均成立,尽管话题流行度增长因子对Twitter新词创造的贡献可能低于出版写作。我们推测这种差异可解释为两个领域倾向于不同的新词形成机制。

0
下载
关闭预览

相关内容

【CMU博士论文】语言理解与生成优化技术,145页pdf
专知会员服务
36+阅读 · 2023年11月22日
TextCNN大牛Kim《深度无监督学习句法结构分析》,88页ppt
专知会员服务
29+阅读 · 2021年1月13日
斯坦福《序列处理的深度学习架构》概述,31页pdf
专知会员服务
56+阅读 · 2021年1月3日
强化学习与文本生成
微信AI
41+阅读 · 2019年4月4日
NLG ≠ 机器写作 | 专家专栏
量子位
13+阅读 · 2018年9月10日
揭秘AI识别虚假新闻背后的原理
DeepTech深科技
10+阅读 · 2018年8月5日
深度学习 | 利用词嵌入对文本进行情感分析
沈浩老师
11+阅读 · 2017年10月19日
【社交网络】一文读懂社交网络分析
产业智能官
15+阅读 · 2017年10月14日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【CMU博士论文】语言理解与生成优化技术,145页pdf
专知会员服务
36+阅读 · 2023年11月22日
TextCNN大牛Kim《深度无监督学习句法结构分析》,88页ppt
专知会员服务
29+阅读 · 2021年1月13日
斯坦福《序列处理的深度学习架构》概述,31页pdf
专知会员服务
56+阅读 · 2021年1月3日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员