Tokenization and Morphological Fidelity in Uralic NLP: A Cross-Lingual Evaluation - 专知论文

会员服务 ·

0

分词 · 语言处理 · 跨语言 · 标注 · 自然语言处理 ·

Tokenization and Morphological Fidelity in Uralic NLP: A Cross-Lingual Evaluation

翻译：乌拉尔语系自然语言处理中的分词与形态保真度：一项跨语言评估

Nuo Xu,Ahrii Kim

Subword tokenization critically affects Natural Language Processing (NLP) performance, yet its behavior in morphologically rich and low-resource language families remains under-explored. This study systematically compares three subword paradigms -- Byte Pair Encoding (BPE), Overlap BPE (OBPE), and Unigram Language Model -- across six Uralic languages with varying resource availability and typological diversity. Using part-of-speech (POS) tagging as a controlled downstream task, we show that OBPE consistently achieves stronger morphological alignment and higher tagging accuracy than conventional methods, particularly within the Latin-script group. These gains arise from reduced fragmentation in open-class categories and a better balance across the frequency spectrum. Transfer efficacy further depends on the downstream tagging architecture, interacting with both training volume and genealogical proximity. Taken together, these findings highlight that morphology-sensitive tokenization is not merely a preprocessing choice but a decisive factor in enabling effective cross-lingual transfer for agglutinative, low-resource languages.

翻译：子词分词对自然语言处理性能具有关键影响，然而其在形态丰富且资源匮乏的语言家族中的表现仍未得到充分探索。本研究系统比较了三种子词范式——字节对编码、重叠字节对编码和一元语言模型——在六种资源可用性和类型多样性各异的乌拉尔语言中的表现。通过将词性标注作为受控下游任务，我们证明重叠字节对编码相较于传统方法能持续实现更强的形态对齐和更高的标注准确率，尤其在拉丁文字组别中表现突出。这些优势源于开放词类范畴中碎片化程度的降低以及整个频率谱系中更优的平衡状态。迁移效能还进一步依赖于下游标注架构，并与训练数据量及谱系亲缘性产生交互作用。综合来看，这些发现表明形态敏感的分词不仅是预处理的选择，更是实现黏着语类低资源语言有效跨语言迁移的决定性因素。

0

相关内容

将一个汉字序列切分成一个一个单独的词

领域特定文本分类中的预训练语言模型新进展：系统综述

领域特定文本分类中的预训练语言模型新进展：系统综述

专知会员服务

14+阅读 · 2025年10月24日

从词向量到多模态嵌入：大型语言模型的技术、应用及未来方向

从词向量到多模态嵌入：大型语言模型的技术、应用及未来方向

专知会员服务

45+阅读 · 2024年11月11日

【剑桥大学博士论文】评估自然语言生成任务的语法性、忠实度和多样性，192页pdf

【剑桥大学博士论文】评估自然语言生成任务的语法性、忠实度和多样性，192页pdf

专知会员服务

23+阅读 · 2024年4月3日

【开放书】《面向自然语言处理的表示学习》，清华大学，Representation Learning for Natural Language Processing

【开放书】《面向自然语言处理的表示学习》，清华大学，Representation Learning for Natural Language Processing

专知会员服务

37+阅读 · 2022年3月24日

百度北京大学发布首篇《自然语言生成保真性》综述论文，52页pdf系统性阐述NLG分析、评价和优化方法

百度北京大学发布首篇《自然语言生成保真性》综述论文，52页pdf系统性阐述NLG分析、评价和优化方法

专知会员服务

28+阅读 · 2022年3月11日

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

专知会员服务

15+阅读 · 2022年3月11日

可解释的自然语言处理方法简介

专知会员服务

81+阅读 · 2021年5月30日

【神经自然语言处理进展：建模，学习，推理】Progress in Neural NLP: Modeling, Learning, and Reasoning

【神经自然语言处理进展：建模，学习，推理】Progress in Neural NLP: Modeling, Learning, and Reasoning

专知会员服务

79+阅读 · 2020年8月13日

【论文推荐】自然语言处理与查询扩展综述，Natural Language Processing and Query Expansion

【论文推荐】自然语言处理与查询扩展综述，Natural Language Processing and Query Expansion

专知会员服务

44+阅读 · 2020年5月3日

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

专知会员服务

27+阅读 · 2020年4月5日

R语言自然语言处理：情感分析

R语言自然语言处理：情感分析

R语言中文社区

16+阅读 · 2019年4月16日

R语言自然语言处理：文本向量化——词嵌入（Word Embedding）

R语言自然语言处理：文本向量化——词嵌入（Word Embedding）

R语言中文社区

10+阅读 · 2019年4月6日

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

深度学习与NLP

25+阅读 · 2018年8月22日

自然语言处理（NLP）知识结构总结

自然语言处理（NLP）知识结构总结

AI100

51+阅读 · 2018年8月17日

从语言学到深度学习NLP，一文概述自然语言处理

从语言学到深度学习NLP，一文概述自然语言处理

人工智能学家

13+阅读 · 2018年1月28日

【NLP】十分钟快览自然语言处理学习总结

【NLP】十分钟快览自然语言处理学习总结

专知

17+阅读 · 2017年11月21日

Natural 自然语言处理（NLP）「全解析」

Natural 自然语言处理（NLP）「全解析」

人工智能学家

15+阅读 · 2017年9月23日

语料库构建——自然语言理解的基础

语料库构建——自然语言理解的基础

计算机研究与发展

11+阅读 · 2017年8月21日

NLP自然语言处理（二）——基础文本分析

NLP自然语言处理（二）——基础文本分析

乐享数据DataScientists

12+阅读 · 2017年2月7日

自然语言处理（二）机器翻译篇 (NLP: machine translation)

自然语言处理（二）机器翻译篇 (NLP: machine translation)

DeepLearning中文论坛

12+阅读 · 2015年7月1日

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

词典驱动的联机手写维吾尔文单词识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语命名实体间语义关系抽取理论方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

面向连续语音的哈萨克语关键词识别技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于潜在语义对偶空间的新词翻译自动识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

A survey of diversity quantification in natural language processing: The why, what, where and how

Arxiv

0+阅读 · 3月13日

LMUnit: Fine-grained Evaluation with Natural Language Unit Tests

Arxiv

0+阅读 · 3月4日

Evaluating Cross-Lingual Classification Approaches Enabling Topic Discovery for Multilingual Social Media Data

Arxiv

0+阅读 · 2月19日

Tokens with Meaning: A Hybrid Tokenization Approach for Turkish

Arxiv

0+阅读 · 2月18日

Lossless Vocabulary Reduction for Auto-Regressive Language Models

Arxiv

0+阅读 · 2月18日

Under-resourced studies of under-resourced languages: lemmatization and POS-tagging with LLM annotators for historical Armenian, Georgian, Greek and Syriac

Arxiv

0+阅读 · 2月17日

Foundations and Evaluations in NLP

Arxiv

0+阅读 · 2月13日

Modality Matching Matters: Calibrating Language Distances for Cross-Lingual Transfer in URIEL+

Arxiv

0+阅读 · 2月9日

Optimal Turkish Subword Strategies at Scale: Systematic Evaluation of Data, Vocabulary, Morphology Interplay

Arxiv

0+阅读 · 2月6日

Modelling the Morphology of Verbal Paradigms: A Case Study in the Tokenization of Turkish and Hebrew

Arxiv

0+阅读 · 2月5日

VIP会员

文章信息

相关主题

自然语言处理

最新内容

博士论文 | 面向大模型推理的内存高效算法

博士论文 | 面向大模型推理的内存高效算法

专知会员服务

2+阅读 · 7月27日

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

专知会员服务

3+阅读 · 7月27日

《无人系统互操作性导论——无人系统联合架构（JAUS）》

《无人系统互操作性导论——无人系统联合架构（JAUS）》

专知会员服务

11+阅读 · 7月27日

美空军新型反无人机部队初探

美空军新型反无人机部队初探

专知会员服务

7+阅读 · 7月27日

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

专知会员服务

6+阅读 · 7月27日

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

专知会员服务

4+阅读 · 7月27日

《防空交战流程的概率建模研究》

《防空交战流程的概率建模研究》

专知会员服务

10+阅读 · 7月27日

ICML 2026 教程 | 数值优化理论还重要吗？

ICML 2026 教程 | 数值优化理论还重要吗？

专知会员服务

6+阅读 · 7月26日

ICM 2026 | 陶哲轩：人工智能时代的数学

ICM 2026 | 陶哲轩：人工智能时代的数学

专知会员服务

9+阅读 · 7月26日

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

专知会员服务

8+阅读 · 7月26日

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

专知会员服务

11+阅读 · 7月26日

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

专知会员服务

8+阅读 · 7月26日

《反无人机交战场景下的战斗归零研究》

《反无人机交战场景下的战斗归零研究》

专知会员服务

7+阅读 · 7月26日

霍尔木兹与不对称作战时代：水雷、无人系统与海军力量的重新定义

霍尔木兹与不对称作战时代：水雷、无人系统与海军力量的重新定义

专知会员服务

4+阅读 · 7月26日

博士论文 | 用代码结构感知方法推进代码大模型

博士论文 | 用代码结构感知方法推进代码大模型

专知会员服务

6+阅读 · 7月25日

相关VIP内容

领域特定文本分类中的预训练语言模型新进展：系统综述

领域特定文本分类中的预训练语言模型新进展：系统综述

专知会员服务

14+阅读 · 2025年10月24日

从词向量到多模态嵌入：大型语言模型的技术、应用及未来方向

从词向量到多模态嵌入：大型语言模型的技术、应用及未来方向

专知会员服务

45+阅读 · 2024年11月11日

【剑桥大学博士论文】评估自然语言生成任务的语法性、忠实度和多样性，192页pdf

【剑桥大学博士论文】评估自然语言生成任务的语法性、忠实度和多样性，192页pdf

专知会员服务

23+阅读 · 2024年4月3日

【开放书】《面向自然语言处理的表示学习》，清华大学，Representation Learning for Natural Language Processing

【开放书】《面向自然语言处理的表示学习》，清华大学，Representation Learning for Natural Language Processing

专知会员服务

37+阅读 · 2022年3月24日

百度北京大学发布首篇《自然语言生成保真性》综述论文，52页pdf系统性阐述NLG分析、评价和优化方法

百度北京大学发布首篇《自然语言生成保真性》综述论文，52页pdf系统性阐述NLG分析、评价和优化方法

专知会员服务

28+阅读 · 2022年3月11日

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

专知会员服务

15+阅读 · 2022年3月11日

可解释的自然语言处理方法简介

专知会员服务

81+阅读 · 2021年5月30日

【神经自然语言处理进展：建模，学习，推理】Progress in Neural NLP: Modeling, Learning, and Reasoning

【神经自然语言处理进展：建模，学习，推理】Progress in Neural NLP: Modeling, Learning, and Reasoning

专知会员服务

79+阅读 · 2020年8月13日

【论文推荐】自然语言处理与查询扩展综述，Natural Language Processing and Query Expansion

【论文推荐】自然语言处理与查询扩展综述，Natural Language Processing and Query Expansion

专知会员服务

44+阅读 · 2020年5月3日

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

专知会员服务

27+阅读 · 2020年4月5日

热门VIP内容

开通专知VIP会员享更多权益服务

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

美空军新型反无人机部队初探

博士论文 | 面向大模型推理的内存高效算法

《无人系统互操作性导论——无人系统联合架构（JAUS）》

相关资讯

R语言自然语言处理：情感分析

R语言自然语言处理：情感分析

R语言中文社区

16+阅读 · 2019年4月16日

R语言自然语言处理：文本向量化——词嵌入（Word Embedding）

R语言自然语言处理：文本向量化——词嵌入（Word Embedding）

R语言中文社区

10+阅读 · 2019年4月6日

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

深度学习与NLP

25+阅读 · 2018年8月22日

自然语言处理（NLP）知识结构总结

自然语言处理（NLP）知识结构总结

AI100

51+阅读 · 2018年8月17日

从语言学到深度学习NLP，一文概述自然语言处理

从语言学到深度学习NLP，一文概述自然语言处理

人工智能学家

13+阅读 · 2018年1月28日

【NLP】十分钟快览自然语言处理学习总结

【NLP】十分钟快览自然语言处理学习总结

专知

17+阅读 · 2017年11月21日

Natural 自然语言处理（NLP）「全解析」

Natural 自然语言处理（NLP）「全解析」

人工智能学家

15+阅读 · 2017年9月23日

语料库构建——自然语言理解的基础

语料库构建——自然语言理解的基础

计算机研究与发展

11+阅读 · 2017年8月21日

NLP自然语言处理（二）——基础文本分析

NLP自然语言处理（二）——基础文本分析

乐享数据DataScientists

12+阅读 · 2017年2月7日

自然语言处理（二）机器翻译篇 (NLP: machine translation)

自然语言处理（二）机器翻译篇 (NLP: machine translation)

DeepLearning中文论坛

12+阅读 · 2015年7月1日

相关论文

A survey of diversity quantification in natural language processing: The why, what, where and how

Arxiv

0+阅读 · 3月13日

LMUnit: Fine-grained Evaluation with Natural Language Unit Tests

Arxiv

0+阅读 · 3月4日

Evaluating Cross-Lingual Classification Approaches Enabling Topic Discovery for Multilingual Social Media Data

Arxiv

0+阅读 · 2月19日

Tokens with Meaning: A Hybrid Tokenization Approach for Turkish

Arxiv

0+阅读 · 2月18日

Lossless Vocabulary Reduction for Auto-Regressive Language Models

Arxiv

0+阅读 · 2月18日

Under-resourced studies of under-resourced languages: lemmatization and POS-tagging with LLM annotators for historical Armenian, Georgian, Greek and Syriac

Arxiv

0+阅读 · 2月17日

Foundations and Evaluations in NLP

Arxiv

0+阅读 · 2月13日

Modality Matching Matters: Calibrating Language Distances for Cross-Lingual Transfer in URIEL+

Arxiv

0+阅读 · 2月9日

Optimal Turkish Subword Strategies at Scale: Systematic Evaluation of Data, Vocabulary, Morphology Interplay

Arxiv

0+阅读 · 2月6日

Modelling the Morphology of Verbal Paradigms: A Case Study in the Tokenization of Turkish and Hebrew

Arxiv

0+阅读 · 2月5日

相关基金

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

词典驱动的联机手写维吾尔文单词识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语命名实体间语义关系抽取理论方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

面向连续语音的哈萨克语关键词识别技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于潜在语义对偶空间的新词翻译自动识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员