Multilingual machine translation systems aim to make knowledge accessible across languages, yet learning effective cross-lingual representations remains challenging. These challenges are especially pronounced for low-resource languages, where limited parallel data constrains generalization and transfer. Understanding how multilingual models share knowledge across languages requires examining the interaction between representations, data availability, and training strategies. In this thesis, we study cross-lingual knowledge transfer in neural models and develop methods to improve robustness and generalization in multilingual settings, using machine translation as a central testbed. We analyze how similarity between languages influences transfer, how retrieval and auxiliary supervision can strengthen low-resource translation, and how fine-tuning on parallel data can introduce unintended trade-offs in large language models. We further examine the role of language diversity during training and show that increasing translation coverage improves generalization and reduces off-target behavior. Together, this work highlights how modeling choices and data composition shape multilingual learning and offers insights toward more inclusive and resilient multilingual NLP systems.


翻译:多语言机器翻译系统旨在实现跨语言的知识互通,然而学习有效的跨语言表征仍然面临挑战。这些挑战在低资源语言中尤为突出,有限的平行数据制约了模型的泛化与迁移能力。理解多语言模型如何跨语言共享知识,需要深入考察表征、数据可用性与训练策略之间的相互作用。本论文以机器翻译为核心实验平台,研究神经模型中的跨语言知识迁移机制,并开发提升多语言场景下鲁棒性与泛化能力的方法。我们分析了语言相似性如何影响迁移效果,探究检索机制与辅助监督如何增强低资源翻译性能,并揭示大规模语言模型在平行数据微调中可能产生的非预期权衡。此外,我们研究了训练过程中语言多样性的作用,证明扩大翻译覆盖范围能够提升泛化能力并减少目标外生成行为。综合而言,本工作阐明了建模选择与数据构成如何塑造多语言学习过程,并为构建更具包容性与适应性的多语言自然语言处理系统提供了理论洞见。

0
下载
关闭预览

相关内容

RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
87+阅读 · 2024年5月3日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员