Machine translation (MT) systems universally degrade when faced with code-mixed text. This problem is more acute for low-resource languages that lack dedicated parallel corpora. This work directly addresses this gap for Vietnamese-English, a language context characterized by challenges including orthographic ambiguity and the frequent omission of diacritics in informal text. We introduce VietMix, the first expert-translated, naturally occurring parallel corpus of Vietnamese-English code-mixed text. We establish VietMix's utility by developing a data augmentation pipeline that leverages iterative fine-tuning and targeted filtering. Experiments show that models augmented with our data outperform strong back-translation baselines by up to +3.5 xCOMET points and improve zero-shot models by up to +11.9 points. Our work delivers a foundational resource for a challenging language pair and provides a validated, transferable framework for building and augmenting corpora in other low-resource settings.


翻译:机器翻译系统在面对混合代码文本时普遍性能下降。对于缺乏专用平行语料库的低资源语言,这一问题更为严重。本研究直接针对越南语-英语这一语言环境中的空白展开工作,该语境以正字法歧义和非正式文本中频繁省略变音符号等挑战为特征。我们介绍了VietMix,这是首个由专家翻译、自然出现的越南语-英语混合代码文本平行语料库。我们通过开发一个利用迭代微调和针对性过滤的数据增强流程,确立了VietMix的实用性。实验表明,使用我们数据增强的模型优于强大的反向翻译基线模型,提升幅度高达+3.5 xCOMET分,并将零样本模型的性能提升高达+11.9分。我们的工作为这一具有挑战性的语言对提供了一个基础资源,并为在其他低资源环境下构建和增强语料库提供了一个经过验证、可迁移的框架。

0
下载
关闭预览

相关内容

【翻译技术速递】测评:免费的术语抽取工具
翻译技术沙龙
139+阅读 · 2019年11月2日
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员