The exponential distribution of the order of demonstrative, numeral, adjective and noun - 专知论文

会员服务 ·

0

概率 · 幂律 · 一致 · 拟合 · 泛化 ·

The exponential distribution of the order of demonstrative, numeral, adjective and noun

翻译：指示词、数词、形容词与名词短语的语序呈指数分布

Ramon Ferrer-i-Cancho

from arxiv, minor corrections (typos and English errors)

The frequency of the preferred order for a noun phrase formed by demonstrative, numeral, adjective and noun has received significant attention over the last two decades. We investigate the actual distribution of the 24 possible orders. There is no consensus on whether it is well-fitted by an exponential or a power law distribution. We find that an exponential distribution is a much better model. This finding and other circumstances where an exponential-like distribution is found challenge the view that power-law distributions, e.g., Zipf's law for word frequencies, are inevitable. We also investigate which of two exponential distributions gives a better fit: an exponential model where the 24 orders have non-zero probability (a geometric distribution truncated at rank 24) or an exponential model where the number of orders that can have non-zero probability is variable (a right-truncated geometric distribution). When consistency and generalizability are prioritized, we find higher support for the exponential model where all 24 orders have non-zero probability. These findings strongly suggest that there is no hard constraint on word order variation and then unattested orders merely result from undersampling, consistently with Cysouw's view.

翻译：由指示词、数词、形容词和名词构成的名词短语中，其优势语序的频率在过去二十年中受到广泛关注。我们研究了24种可能语序的实际分布。关于其是否更符合指数分布或幂律分布，目前尚未达成共识。我们发现指数分布是更优的模型。这一发现以及其他存在类指数分布的情形，对"幂律分布（如词频的齐夫定律）具有必然性"的观点提出了挑战。我们还比较了两种指数分布模型的拟合优度：一种是24种语序均具有非零概率的指数模型（截断于第24位的几何分布），另一种是允许具有非零概率的语序数量可变的指数模型（右截断几何分布）。当优先考虑一致性与泛化能力时，我们发现所有24种语序均具有非零概率的指数模型获得更高支持。这些发现有力地表明，语序变异并不存在硬性约束，未观测到的语序仅源于采样不足，这与Cysouw的观点一致。

0

相关内容

本话题关于日常用语「概率」，用于讨论生活中的运气、机会，及赌博、彩票、游戏中的「技巧」。关于抽象数学概念「概率」的讨论，请转概率（数学）话题。

【博士论文】电商搜索中的排序学习

【博士论文】电商搜索中的排序学习

专知会员服务

13+阅读 · 2025年11月15日

多样化偏好优化

多样化偏好优化

专知会员服务

12+阅读 · 2025年2月3日

大语言模型在序列推荐中的应用

大语言模型在序列推荐中的应用

专知会员服务

19+阅读 · 2024年11月12日

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

专知会员服务

155+阅读 · 2024年3月1日

时序知识图谱表示学习

时序知识图谱表示学习

专知会员服务

154+阅读 · 2022年9月17日

【CVPR2022】提示分布学习

【CVPR2022】提示分布学习

专知会员服务

31+阅读 · 2022年5月17日

复旦大学邱锡鹏等《自然语言处理范式迁移综述》论文，详述7大NLP范式：分类、匹配、SeqLab, MRC, Seq2Seq等

专知会员服务

54+阅读 · 2021年9月29日

分布外泛化(Out-Of-Distribution Generalization) 综述论文，22页pdf240篇文献

专知会员服务

64+阅读 · 2021年9月2日

WWW21最新「比较学习」教程，135页PPT阐述从排名数据中学习

专知会员服务

37+阅读 · 2021年4月27日

NLP基础任务:文本分类近年发展汇总,68页超详细解析

NLP基础任务:文本分类近年发展汇总,68页超详细解析

专知会员服务

74+阅读 · 2019年10月19日

开源新书《时间序列分析，数据/方法/应用》，6章110页pdf带你了解最新进展，附下载

开源新书《时间序列分析，数据/方法/应用》，6章110页pdf带你了解最新进展，附下载

专知

91+阅读 · 2019年11月20日

【EMNLP2019教程】分布式词向量表示，附239页PPT下载

【EMNLP2019教程】分布式词向量表示，附239页PPT下载

专知

20+阅读 · 2019年11月13日

NLP中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert

NLP中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert

AINLP

31+阅读 · 2019年6月1日

NLP基础任务:文本分类近年发展汇总,68页超详细解析

NLP基础任务:文本分类近年发展汇总,68页超详细解析

专知

167+阅读 · 2019年4月18日

超详细干货 | 三维语义分割概述及总结

超详细干货 | 三维语义分割概述及总结

计算机视觉life

33+阅读 · 2019年3月19日

学会原创 | 自然语言的语义表示学习方法与应用

学会原创 | 自然语言的语义表示学习方法与应用

中国人工智能学会

11+阅读 · 2019年3月7日

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

人工智能前沿讲习班

21+阅读 · 2018年12月21日

深度上下文词向量

深度上下文词向量

微信AI

27+阅读 · 2018年9月13日

R语言之数据分析高级方法「时间序列」

R语言之数据分析高级方法「时间序列」

R语言中文社区

17+阅读 · 2018年4月24日

【论文推荐】最新六篇序列推荐相关论文—卷积序列嵌入学习、用户记忆网络、上下文GRU、迁移学习

【论文推荐】最新六篇序列推荐相关论文—卷积序列嵌入学习、用户记忆网络、上下文GRU、迁移学习

专知

10+阅读 · 2018年4月8日

有限域上指数和的计算及其在序列设计中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

自相似序列的无理指数、分形及相关问题

国家自然科学基金

0+阅读 · 2015年12月31日

几类随机指数函数空间的应用

国家自然科学基金

0+阅读 · 2015年12月31日

分数随机微分方程的定性理论研究及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

混合分布模型中序性质和维修策略的一些研究

国家自然科学基金

0+阅读 · 2015年12月31日

有限域上指数和与量子码的研究

国家自然科学基金

0+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

On the Existence and Behavior of Secondary Attention Sinks

Arxiv

0+阅读 · 2月19日

Tokenization and Morphological Fidelity in Uralic NLP: A Cross-Lingual Evaluation

Arxiv

0+阅读 · 2月14日

Beyond Kemeny Medians: Consensus Ranking Distributions Definition, Properties and Statistical Learning

Arxiv

0+阅读 · 2月11日

Learning Tractable Distributions Of Language Model Continuations

Arxiv

0+阅读 · 2月10日

Beyond Pairwise: Empowering LLM Alignment With Ranked Choice Modeling

Arxiv

0+阅读 · 2月10日

Probabilistic Fair Ordering of Events

Arxiv

0+阅读 · 2月9日

Black Big Boxes: Tracing Adjective Order Preferences in Large Language Models

Arxiv

0+阅读 · 2月9日

Factor-balancedness, linear recurrence, and factor complexity

Arxiv

0+阅读 · 2月3日

Beyond Marginal Distributions: A Framework to Evaluate the Representativeness of Demographic-Aligned LLMs

Arxiv

0+阅读 · 2月2日

Multiplex Thinking: Reasoning via Token-wise Branch-and-Merge

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

最新内容

2026“人工智能+”行业发展蓝皮书（附下载）

2026“人工智能+”行业发展蓝皮书（附下载）

专知会员服务

7+阅读 · 今天12:11

《强化学习数学基础》

《强化学习数学基础》

专知会员服务

4+阅读 · 今天12:07

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

专知会员服务

6+阅读 · 今天10:06

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

专知会员服务

3+阅读 · 今天9:11

深入Maven智能系统：Palantir基于Claude打造的军事大脑

深入Maven智能系统：Palantir基于Claude打造的军事大脑

专知会员服务

10+阅读 · 今天8:18

“Maven计划”的发展演变之“Maven智能系统”应用

“Maven计划”的发展演变之“Maven智能系统”应用

专知会员服务

9+阅读 · 今天8:03

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

专知会员服务

6+阅读 · 今天7:39

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

专知会员服务

5+阅读 · 今天6:58

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

专知会员服务

5+阅读 · 今天6:54

《无人机革命：来自俄乌战场的启示》（报告）

《无人机革命：来自俄乌战场的启示》（报告）

专知会员服务

9+阅读 · 今天6:48

《实现联合作战能力所需的技术》58页报告

《实现联合作战能力所需的技术》58页报告

专知会员服务

5+阅读 · 今天6:30

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

专知会员服务

7+阅读 · 今天6:22

以色列运用人工智能优化空袭警报系统

以色列运用人工智能优化空袭警报系统

专知会员服务

5+阅读 · 今天6:20

以色列在多条战线部署AI智能体

以色列在多条战线部署AI智能体

专知会员服务

7+阅读 · 今天6:12

《将形式化方法工具应用于电子战代码库（经验报告）》

《将形式化方法工具应用于电子战代码库（经验报告）》

专知会员服务

6+阅读 · 今天6:09

相关VIP内容

【博士论文】电商搜索中的排序学习

【博士论文】电商搜索中的排序学习

专知会员服务

13+阅读 · 2025年11月15日

多样化偏好优化

多样化偏好优化

专知会员服务

12+阅读 · 2025年2月3日

大语言模型在序列推荐中的应用

大语言模型在序列推荐中的应用

专知会员服务

19+阅读 · 2024年11月12日

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

专知会员服务

155+阅读 · 2024年3月1日

时序知识图谱表示学习

时序知识图谱表示学习

专知会员服务

154+阅读 · 2022年9月17日

【CVPR2022】提示分布学习

【CVPR2022】提示分布学习

专知会员服务

31+阅读 · 2022年5月17日

复旦大学邱锡鹏等《自然语言处理范式迁移综述》论文，详述7大NLP范式：分类、匹配、SeqLab, MRC, Seq2Seq等

专知会员服务

54+阅读 · 2021年9月29日

分布外泛化(Out-Of-Distribution Generalization) 综述论文，22页pdf240篇文献

专知会员服务

64+阅读 · 2021年9月2日

WWW21最新「比较学习」教程，135页PPT阐述从排名数据中学习

专知会员服务

37+阅读 · 2021年4月27日

NLP基础任务:文本分类近年发展汇总,68页超详细解析

NLP基础任务:文本分类近年发展汇总,68页超详细解析

专知会员服务

74+阅读 · 2019年10月19日

热门VIP内容

开通专知VIP会员享更多权益服务

《强化学习数学基础》

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

2026“人工智能+”行业发展蓝皮书（附下载）

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

相关资讯

开源新书《时间序列分析，数据/方法/应用》，6章110页pdf带你了解最新进展，附下载

开源新书《时间序列分析，数据/方法/应用》，6章110页pdf带你了解最新进展，附下载

专知

91+阅读 · 2019年11月20日

【EMNLP2019教程】分布式词向量表示，附239页PPT下载

【EMNLP2019教程】分布式词向量表示，附239页PPT下载

专知

20+阅读 · 2019年11月13日

NLP中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert

NLP中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert

AINLP

31+阅读 · 2019年6月1日

NLP基础任务:文本分类近年发展汇总,68页超详细解析

NLP基础任务:文本分类近年发展汇总,68页超详细解析

专知

167+阅读 · 2019年4月18日

超详细干货 | 三维语义分割概述及总结

超详细干货 | 三维语义分割概述及总结

计算机视觉life

33+阅读 · 2019年3月19日

学会原创 | 自然语言的语义表示学习方法与应用

学会原创 | 自然语言的语义表示学习方法与应用

中国人工智能学会

11+阅读 · 2019年3月7日

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

人工智能前沿讲习班

21+阅读 · 2018年12月21日

深度上下文词向量

深度上下文词向量

微信AI

27+阅读 · 2018年9月13日

R语言之数据分析高级方法「时间序列」

R语言之数据分析高级方法「时间序列」

R语言中文社区

17+阅读 · 2018年4月24日

【论文推荐】最新六篇序列推荐相关论文—卷积序列嵌入学习、用户记忆网络、上下文GRU、迁移学习

【论文推荐】最新六篇序列推荐相关论文—卷积序列嵌入学习、用户记忆网络、上下文GRU、迁移学习

专知

10+阅读 · 2018年4月8日

相关论文

On the Existence and Behavior of Secondary Attention Sinks

Arxiv

0+阅读 · 2月19日

Tokenization and Morphological Fidelity in Uralic NLP: A Cross-Lingual Evaluation

Arxiv

0+阅读 · 2月14日

Beyond Kemeny Medians: Consensus Ranking Distributions Definition, Properties and Statistical Learning

Arxiv

0+阅读 · 2月11日

Learning Tractable Distributions Of Language Model Continuations

Arxiv

0+阅读 · 2月10日

Beyond Pairwise: Empowering LLM Alignment With Ranked Choice Modeling

Arxiv

0+阅读 · 2月10日

Probabilistic Fair Ordering of Events

Arxiv

0+阅读 · 2月9日

Black Big Boxes: Tracing Adjective Order Preferences in Large Language Models

Arxiv

0+阅读 · 2月9日

Factor-balancedness, linear recurrence, and factor complexity

Arxiv

0+阅读 · 2月3日

Beyond Marginal Distributions: A Framework to Evaluate the Representativeness of Demographic-Aligned LLMs

Arxiv

0+阅读 · 2月2日

Multiplex Thinking: Reasoning via Token-wise Branch-and-Merge

Arxiv

0+阅读 · 1月13日

相关基金

有限域上指数和的计算及其在序列设计中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

自相似序列的无理指数、分形及相关问题

国家自然科学基金

0+阅读 · 2015年12月31日

几类随机指数函数空间的应用

国家自然科学基金

0+阅读 · 2015年12月31日

分数随机微分方程的定性理论研究及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

混合分布模型中序性质和维修策略的一些研究

国家自然科学基金

0+阅读 · 2015年12月31日

有限域上指数和与量子码的研究

国家自然科学基金

0+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员