Multilingual machine translation systems aim to make knowledge accessible across languages, yet learning effective cross-lingual representations remains challenging. These challenges are especially pronounced for low-resource languages, where limited parallel data constrains generalization and transfer. Understanding how multilingual models share knowledge across languages requires examining the interaction between representations, data availability, and training strategies. In this thesis, we study cross-lingual knowledge transfer in neural models and develop methods to improve robustness and generalization in multilingual settings, using machine translation as a central testbed. We analyze how similarity between languages influences transfer, how retrieval and auxiliary supervision can strengthen low-resource translation, and how fine-tuning on parallel data can introduce unintended trade-offs in large language models. We further examine the role of language diversity during training and show that increasing translation coverage improves generalization and reduces off-target behavior. Together, this work highlights how modeling choices and data composition shape multilingual learning and offers insights toward more inclusive and resilient multilingual NLP systems.


翻译:多语言机器翻译系统旨在实现跨语言的知识互通,然而学习有效的跨语言表征仍然面临挑战。这些挑战在低资源语言中尤为突出,有限的平行数据制约了模型的泛化与迁移能力。理解多语言模型如何跨语言共享知识,需要深入考察表征、数据可用性与训练策略之间的相互作用。本论文以机器翻译为核心实验平台,研究神经模型中的跨语言知识迁移机制,并开发提升多语言场景下鲁棒性与泛化能力的方法。我们分析了语言相似性如何影响迁移效果,探究检索机制与辅助监督如何增强低资源翻译性能,并揭示大规模语言模型在平行数据微调中可能产生的非预期权衡。此外,我们研究了训练过程中语言多样性的作用,证明扩大翻译覆盖范围能够提升泛化能力并减少目标外生成行为。综合而言,本工作阐明了建模选择与数据构成如何塑造多语言学习过程,并为构建更具包容性与适应性的多语言自然语言处理系统提供了理论洞见。

0
下载
关闭预览

相关内容

【博士论文】⾮⾃回归神经机器翻译的训练⽅法研究
专知会员服务
19+阅读 · 2023年12月9日
稀缺资源语言神经网络机器翻译研究综述
专知会员服务
27+阅读 · 2020年12月2日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
《机器翻译与译后编辑教学指南》于WITTA年会正式发布
翻译技术沙龙
32+阅读 · 2019年6月17日
机器翻译学术论文写作方法和技巧
清华大学研究生教育
11+阅读 · 2018年12月23日
清华大学:刘洋——基于深度学习的机器翻译
人工智能学家
12+阅读 · 2017年11月13日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Arxiv
0+阅读 · 1月15日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员