The frequency of the preferred order for a noun phrase formed by demonstrative, numeral, adjective and noun has received significant attention over the last two decades. We investigate the actual distribution of the 24 possible orders. There is no consensus on whether it is well-fitted by an exponential or a power law distribution. We find that an exponential distribution is a much better model. This finding and other circumstances where an exponential-like distribution is found challenge the view that power-law distributions, e.g., Zipf's law for word frequencies, are inevitable. We also investigate which of two exponential distributions gives a better fit: an exponential model where the 24 orders have non-zero probability (a geometric distribution truncated at rank 24) or an exponential model where the number of orders that can have non-zero probability is variable (a right-truncated geometric distribution). When consistency and generalizability are prioritized, we find higher support for the exponential model where all 24 orders have non-zero probability. These findings strongly suggest that there is no hard constraint on word order variation and then unattested orders merely result from undersampling, consistently with Cysouw's view.


翻译:由指示词、数词、形容词和名词构成的名词短语中,其优势语序的频率在过去二十年中受到广泛关注。我们研究了24种可能语序的实际分布。关于其是否更符合指数分布或幂律分布,目前尚未达成共识。我们发现指数分布是更优的模型。这一发现以及其他存在类指数分布的情形,对"幂律分布(如词频的齐夫定律)具有必然性"的观点提出了挑战。我们还比较了两种指数分布模型的拟合优度:一种是24种语序均具有非零概率的指数模型(截断于第24位的几何分布),另一种是允许具有非零概率的语序数量可变的指数模型(右截断几何分布)。当优先考虑一致性与泛化能力时,我们发现所有24种语序均具有非零概率的指数模型获得更高支持。这些发现有力地表明,语序变异并不存在硬性约束,未观测到的语序仅源于采样不足,这与Cysouw的观点一致。

0
下载
关闭预览

相关内容

本话题关于日常用语「概率」,用于讨论生活中的运气、机会,及赌博、彩票、游戏中的「技巧」。关于抽象数学概念「概率」的讨论,请转 概率(数学)话题。
【博士论文】电商搜索中的排序学习
专知会员服务
13+阅读 · 2025年11月15日
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
大语言模型在序列推荐中的应用
专知会员服务
19+阅读 · 2024年11月12日
时序知识图谱表示学习
专知会员服务
154+阅读 · 2022年9月17日
【CVPR2022】提示分布学习
专知会员服务
31+阅读 · 2022年5月17日
NLP基础任务:文本分类近年发展汇总,68页超详细解析
专知会员服务
74+阅读 · 2019年10月19日
超详细干货 | 三维语义分割概述及总结
计算机视觉life
33+阅读 · 2019年3月19日
学会原创 | 自然语言的语义表示学习方法与应用
中国人工智能学会
11+阅读 · 2019年3月7日
深度上下文词向量
微信AI
27+阅读 · 2018年9月13日
R语言之数据分析高级方法「时间序列」
R语言中文社区
17+阅读 · 2018年4月24日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月9日
VIP会员
相关VIP内容
【博士论文】电商搜索中的排序学习
专知会员服务
13+阅读 · 2025年11月15日
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
大语言模型在序列推荐中的应用
专知会员服务
19+阅读 · 2024年11月12日
时序知识图谱表示学习
专知会员服务
154+阅读 · 2022年9月17日
【CVPR2022】提示分布学习
专知会员服务
31+阅读 · 2022年5月17日
NLP基础任务:文本分类近年发展汇总,68页超详细解析
专知会员服务
74+阅读 · 2019年10月19日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员