Diacritics are orthographic marks that clarify pronunciation, distinguish similar words, or alter meaning. They play a central role in many writing systems, yet their impact on language technology has not been systematically quantified across scripts. While prior work has examined diacritics in individual languages, there's no cross-linguistic, data-driven framework for measuring the degree to which writing systems rely on them and how this affects downstream tasks. We propose a data-driven framework for quantifying diacritic complexity using corpus-level, information-theoretic metrics that capture the frequency, ambiguity, and structural diversity of character-diacritic combinations. We compute these metrics over 24 corpora in 15 languages, spanning both single- and multi-diacritic scripts. We then examine how diacritic complexity correlates with performance on the task of diacritics restoration, evaluating BERT- and RNN-based models. We find that across languages, higher diacritic complexity is strongly associated with lower restoration accuracy. In single-diacritic scripts, where character-diacritic combinations are more predictable, frequency-based and structural measures largely align. In multi-diacritic scripts, however, structural complexity exhibits the strongest association with performance, surpassing frequency-based measures. These findings show that measurable properties of diacritic usage influence the performance of diacritic restoration models, demonstrating that orthographic complexity is not only descriptive but functionally relevant for modeling.


翻译:变音符是附加在字母上的正字标记,用于标注发音、区分近形词或改变词义。尽管变音符在许多书写系统中发挥着核心作用,但目前缺乏系统性的跨文字量化研究来评估其对语言技术的影响。先前研究多聚焦于单一语言中的变音符现象,尚未建立跨语言、数据驱动的分析框架,用以衡量书写系统对变音符的依赖程度及其对下游任务产生的效应。本文提出一种数据驱动的量化框架,通过基于语料库的信息论指标(包括变音符与字母组合的频率、歧义性及结构多样性)来测算变音符复杂度。我们基于15种语言的24个语料库(涵盖单变音符文字与多变音符文字)计算了上述指标,进而考察了变音符复杂度与变音符恢复任务性能之间的相关性,并评估了基于BERT和RNN两类模型的表现。研究发现:跨语言环境中,变音符复杂度越高,字恢复准确率越低。在字符-变音符组合可预测性较强的单变音符文字中,基于频率和结构特征的指标基本保持一致;而在多变音符文字中,结构复杂度指标表现出与模型性能最强的关联性,其预测能力显著优于频率类指标。上述结果表明,变音符使用中可量化的特征会影响变音符恢复模型的性能,证实正字复杂度不仅具有描述性价值,更具备建模层面的功能相关性。

0
下载
关闭预览

相关内容

音退化问题:基于输入操控的鲁棒语音转换综述
专知会员服务
8+阅读 · 2025年12月20日
端到端语音到语音翻译的优化方法综述
专知会员服务
8+阅读 · 2025年6月10日
【CMU博士论文】语言理解与生成优化技术,145页pdf
专知会员服务
36+阅读 · 2023年11月22日
机器音译研究综述
专知会员服务
17+阅读 · 2022年10月16日
专知会员服务
31+阅读 · 2021年8月16日
哈工大韩纪庆教授《语音信号处理(第3版)》出版
语音情绪识别|声源增强|基频可视化
深度学习每日摘要
15+阅读 · 2019年5月5日
强化学习与文本生成
微信AI
41+阅读 · 2019年4月4日
学会原创 | 自然语言的语义表示学习方法与应用
中国人工智能学会
11+阅读 · 2019年3月7日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
语音识别之--韩语语音识别
微信AI
16+阅读 · 2017年8月2日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关资讯
哈工大韩纪庆教授《语音信号处理(第3版)》出版
语音情绪识别|声源增强|基频可视化
深度学习每日摘要
15+阅读 · 2019年5月5日
强化学习与文本生成
微信AI
41+阅读 · 2019年4月4日
学会原创 | 自然语言的语义表示学习方法与应用
中国人工智能学会
11+阅读 · 2019年3月7日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
语音识别之--韩语语音识别
微信AI
16+阅读 · 2017年8月2日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员