We introduce the ladderpath index as a measure of language complexity grounded in algorithmic information theory. It counts the minimum steps needed to reconstruct a sequence through hierarchical reuse of repeated substructures, capturing an exactly computable but constrained form of algorithmic compressibility related to, but distinct from, Kolmogorov complexity. We apply the ladderpath approach to 21 parallel corpora from the Parallel Universal Dependencies dataset. The ladderpath index is approximately invariant across the languages, and varies much less than the corpus length. This is more pronounced when all corpora are mapped to a unified binary representation, providing evidence for the equi-complexity hypothesis from a representation-independent perspective. We also observe trade-offs between character inventory size and corpus length, and between vocabulary-level and corpus-level reconstruction complexity, supporting the trade-off hypothesis that total complexity is conserved and redistributed across linguistic levels. The reusable substructures identified by the ladderpath approach, without any linguistic input, overlap with words and morphological components attested in the natural vocabulary. The hierarchical reuse captured by the ladderpath approach parallels the chunking mechanisms proposed in cognitive science, where the human cognitive system compresses linguistic input into nested, reusable units under shared memory and processing constraints. This connection between cognitive chunking and the ladderpath approach provides a new interpretation for the equi-complexity and trade-off hypotheses, grounding both in the shared cognitive architecture that underlies language processing across human languages.


翻译:我们引入梯径指数作为基于算法信息论的语言复杂度度量。该指数通过层次化复用重复子结构重建序列所需的最小步骤数,捕捉了一种可精确计算但受限的算法压缩性形式,该形式与柯尔莫哥洛夫复杂度相关但有所区别。我们将梯径方法应用于平行通用依存数据集中的21个平行语料库。梯径指数在不同语言间近似恒定,其变化幅度远小于语料库长度。当所有语料库映射为统一二进制表示时该现象更为显著,为等复杂度假说提供了独立于表征角度的证据。我们还观察到字符库规模与语料长度间的权衡,以及词汇层面与语料层面重建复杂度间的权衡,这支持了复杂度守恒并在语言层级间重新分布的总复杂度权衡假说。梯径方法识别出的可复用子结构(无需任何语言学输入)与自然词汇中存在的单词及形态成分具有重叠性。梯径方法捕捉的层次化复用与认知科学中提出的组块机制相平行——人类认知系统在共享记忆与加工限制下将语言输入压缩为嵌套式可复用单元。认知组块与梯径方法间的关联为等复杂度假说与权衡假说提供了全新解释,将两者共同归因于支撑跨人类语言处理过程的共享认知架构。

0
下载
关闭预览

相关内容

Cognition:Cognition:International Journal of Cognitive Science Explanation:认知:国际认知科学杂志。 Publisher:Elsevier。 SIT: http://www.journals.elsevier.com/cognition/
论学习、公平性与复杂度
专知会员服务
11+阅读 · 2月28日
从计算理论看语言模型的scaling law和多模态模型的发展
专知会员服务
29+阅读 · 2024年6月27日
【2023新书】算法与设计复杂度,196页pdf
专知会员服务
78+阅读 · 2023年3月31日
通过条件梯度进行结构化机器学习训练,50页ppt与视频
专知会员服务
13+阅读 · 2021年2月25日
2018年深度学习优化算法最新综述
计算机视觉战队
10+阅读 · 2018年12月11日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
从语言学到深度学习NLP,一文概述自然语言处理
人工智能学家
13+阅读 · 2018年1月28日
干货|掌握机器学习数学基础之优化[1](重点知识)
机器学习研究会
10+阅读 · 2017年11月19日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月27日
Arxiv
0+阅读 · 5月25日
Arxiv
0+阅读 · 4月6日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关资讯
2018年深度学习优化算法最新综述
计算机视觉战队
10+阅读 · 2018年12月11日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
从语言学到深度学习NLP,一文概述自然语言处理
人工智能学家
13+阅读 · 2018年1月28日
干货|掌握机器学习数学基础之优化[1](重点知识)
机器学习研究会
10+阅读 · 2017年11月19日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员