This paper presents a novel syllable-based tokenization approach for Indonesian large language models, inspired by the Gasing Literacy Learning System's pedagogical methodology. Drawing on information-theoretic principles, we develop a tokenization framework that segments Indonesian text at syllable boundaries before applying byte-pair encoding, creating a vocabulary that aligns with the language's morphophonological structure. Our approach first identifies high-frequency syllables through rule-based segmentation, then constructs a compact vocabulary of 3,500 tokens that preserves meaningful linguistic units while maintaining coverage through character-level fallback. Empirical evaluation on Indonesian Wikipedia and folklore corpora from Indonesian Culture Digital Library (PDBI) demonstrates substantial improvements over conventional tokenization methods: the syllable-based approach achieves Rényi efficiency of 0.74 compared to 0.50-0.64 for pretrained multilingual tokenizers, while maintaining higher average token lengths (3.67 characters versus 2.72 for GPT-2) despite using a vocabulary an order of magnitude smaller. These gains emerge from the method's ability to internalize character-level dependencies within syllable units, reducing the computational burden on language models while respecting Indonesian's agglutinative morphology. We call the LLM built upon this principle, TOBA LLM (Tokenisasi Optimum Berbasis Aglutinasi), the convergence of human literacy pedagogy with computational optimization principles offers a promising paradigm for developing linguistically-informed tokenization strategies, particularly for morphologically rich and underrepresented languages in natural language processing.


翻译:本文提出一种新颖的基于音节的印尼语大语言模型分词方法,其灵感来源于Gasing识字学习系统的教学理念。基于信息论原理,我们开发了一种分词框架:该框架先在音节边界处切分印尼语文本,再应用字节对编码,从而构建出符合该语言形态音系结构的词表。我们的方法首先通过基于规则的切分识别高频音节,随后构建包含3,500个标记的紧凑词表,该词表在保留有意义语言单元的同时,通过字符级回退机制保持覆盖度。在印尼语维基百科及印尼文化数字图书馆(PDBI)民间故事语料上的实证评估表明,该方法相较传统分词方式有显著提升:基于音节的方法实现了0.74的Rényi效率,而预训练多语言分词器的效率仅为0.50-0.64;同时,尽管所用词表规模小一个数量级,该方法仍保持了更高的平均标记长度(3.67个字符,GPT-2为2.72个字符)。这些优势源于该方法能够将字符级依赖关系内化于音节单元之中,在尊重印尼语粘着形态的同时减轻语言模型的计算负担。我们将基于此原理构建的大语言模型命名为TOBA LLM(Tokenisasi Optimum Berbasis Aglutinasi)。人类识字教学法与计算优化原则的融合,为开发具有语言学依据的分词策略——特别是针对形态丰富且在自然语言处理中代表性不足的语言——提供了一个前景广阔的研究范式。

0
下载
关闭预览

相关内容

多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
【开放书】清华大学《语音识别基本法》,215页pdf
专知会员服务
150+阅读 · 2020年7月29日
近期语音类前沿论文
深度学习每日摘要
14+阅读 · 2019年3月17日
Jiagu:中文深度学习自然语言处理工具
AINLP
90+阅读 · 2019年2月20日
语义分割如何「拉关系」?
计算机视觉life
11+阅读 · 2019年2月15日
深度学习文本分类方法综述(代码)
中国人工智能学会
28+阅读 · 2018年6月16日
见微知著:语义分割中的弱监督学习
深度学习大讲堂
11+阅读 · 2017年12月6日
NLP自然语言处理(二)——基础文本分析
乐享数据DataScientists
12+阅读 · 2017年2月7日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
【开放书】清华大学《语音识别基本法》,215页pdf
专知会员服务
150+阅读 · 2020年7月29日
相关资讯
近期语音类前沿论文
深度学习每日摘要
14+阅读 · 2019年3月17日
Jiagu:中文深度学习自然语言处理工具
AINLP
90+阅读 · 2019年2月20日
语义分割如何「拉关系」?
计算机视觉life
11+阅读 · 2019年2月15日
深度学习文本分类方法综述(代码)
中国人工智能学会
28+阅读 · 2018年6月16日
见微知著:语义分割中的弱监督学习
深度学习大讲堂
11+阅读 · 2017年12月6日
NLP自然语言处理(二)——基础文本分析
乐享数据DataScientists
12+阅读 · 2017年2月7日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员