The statistical over-representation of phonological features in the basic vocabulary of languages is often interpreted as reflecting potentially universal sound symbolic patterns. However, most of those results have not been tested explicitly for reproducibility and might be prone to biases in the study samples or models. Many studies on the topic do not adequately control for genealogical and areal dependencies between sampled languages, casting doubts on the robustness of the results. In this study, we test the robustness of a recent study on sound symbolism of basic vocabulary concepts which analyzed245 languages.The new sample includes data on 2864 languages from Lexibank. We modify the original model by adding statistical controls for spatial and phylogenetic dependencies between languages. The new results show that most of the previously observed patterns are not robust, and in fact many patterns disappear completely when adding the genealogical and areal controls. A small number of patterns, however, emerges as highly stable even with the new sample. Through the new analysis, we are able to assess the distribution of sound symbolism on a larger scale than previously. The study further highlights the need for testing all universal claims on language for robustness on various levels.


翻译:语言基本词汇中音系特征的统计过度表征常被解释为可能反映了普遍的声音象征模式。然而,这些结果大多未经过明确的可重复性检验,且可能受研究样本或模型偏差的影响。该领域的许多研究未能充分控制样本语言间的谱系与地域依赖性,导致结果的稳健性受到质疑。本研究检验了一项近期关于基本词汇概念声音象征性研究(分析了245种语言)的稳健性。新样本包含Lexibank中2864种语言的数据。我们通过增加对语言间空间与谱系依赖性的统计控制来修正原始模型。新结果表明,先前观察到的大多数模式并不稳健,事实上在加入谱系与地域控制后,许多模式完全消失。然而,少量模式在新样本中仍表现出高度稳定性。通过新分析,我们得以在比以往更广的尺度上评估声音象征的分布。本研究进一步强调,所有关于语言的普遍性主张均需在不同层面上进行稳健性检验。

0
下载
关闭预览

相关内容

【ICML2025】扩散模型的二重性
专知会员服务
10+阅读 · 2025年6月13日
【CVPR2025】重新思考长时视频理解中的时序检索
专知会员服务
13+阅读 · 2025年4月6日
CLIP通用提示学习的简要概述
专知会员服务
17+阅读 · 2025年3月13日
RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
89+阅读 · 2024年5月3日
【NeurIPS2022】通过模型转换的可解释强化学习
专知会员服务
38+阅读 · 2022年10月4日
【ICML2022】Orchestra: 通过全局一致聚类的无监督联邦学习
专知会员服务
17+阅读 · 2022年5月27日
【NeurIPS2021】组合能量概念无监督学习
专知会员服务
14+阅读 · 2021年11月5日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
18+阅读 · 2024年12月27日
A Survey of Large Language Models
Arxiv
499+阅读 · 2023年3月31日
Recent advances in deep learning theory
Arxiv
50+阅读 · 2020年12月20日
VIP会员
相关VIP内容
【ICML2025】扩散模型的二重性
专知会员服务
10+阅读 · 2025年6月13日
【CVPR2025】重新思考长时视频理解中的时序检索
专知会员服务
13+阅读 · 2025年4月6日
CLIP通用提示学习的简要概述
专知会员服务
17+阅读 · 2025年3月13日
RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
89+阅读 · 2024年5月3日
【NeurIPS2022】通过模型转换的可解释强化学习
专知会员服务
38+阅读 · 2022年10月4日
【ICML2022】Orchestra: 通过全局一致聚类的无监督联邦学习
专知会员服务
17+阅读 · 2022年5月27日
【NeurIPS2021】组合能量概念无监督学习
专知会员服务
14+阅读 · 2021年11月5日
相关资讯
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
【NeurIPS2019】图变换网络:Graph Transformer Network
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员