Multilingual large language models achieve impressive cross-lingual performance despite largely monolingual pretraining. While bilingual data in pretraining corpora is widely believed to enable these abilities, details of its contributions remain unclear. We investigate this question by pretraining models from scratch under controlled conditions, comparing the standard web corpus with a monolingual-only version that removes all multilingual documents. Despite constituting only 2% of the corpus, removing bilingual data causes translation performance to drop 56% in BLEU, while behaviour on cross-lingual QA and general reasoning tasks remains stable, with training curves largely overlapping the baseline. To understand this asymmetry, we categorize bilingual data into parallel (14%), code-switching (72%), and miscellaneous documents (14%) based on the semantic relevance of content in different languages. We then conduct granular ablations by reintroducing parallel or code-switching data into the monolingual-only corpus. Our experiments reveal that parallel data almost fully restores translation performance (91% of the unfiltered baseline), whereas code-switching contributes minimally. Other cross-lingual tasks remain largely unaffected by either type. These findings reveal that translation critically depends on systematic token-level alignments from parallel data, whereas cross-lingual understanding and reasoning appear to be achievable even without bilingual data.


翻译:尽管主要基于单语数据进行预训练,多语言大语言模型仍展现出卓越的跨语言性能。虽然预训练语料库中的双语数据被普遍认为是实现这些能力的关键,但其具体贡献机制尚不明确。本研究通过受控条件下的从头预训练实验探讨这一问题,对比标准网络语料库与移除所有多语言文档的纯单语版本。尽管双语数据仅占语料库的2%,移除后却导致翻译性能在BLEU指标上下降56%,而跨语言问答和通用推理任务的表现保持稳定,其训练曲线与基线模型基本重合。为解释这种不对称性,我们根据不同语言内容的语义关联性将双语数据分类为平行语料(14%)、语码转换文档(72%)和混杂文档(14%)。随后通过向纯单语语料库中重新引入平行语料或语码转换数据进行细粒度消融实验。实验结果表明:平行语料几乎完全恢复翻译性能(达到未过滤基线的91%),而语码转换数据的贡献微乎其微。其他跨语言任务的表现基本不受任何双语数据类型的影响。这些发现揭示:翻译能力主要依赖于平行语料提供的系统性词元级对齐,而跨语言理解与推理能力即使在没有双语数据的情况下亦可实现。

0
下载
关闭预览

相关内容

当持续学习遇上多模态大型语言模型:综述
专知会员服务
32+阅读 · 2025年3月5日
《多语言大型语言模型:系统综述》
专知会员服务
49+阅读 · 2024年11月21日
《大语言模型的数据合成与增强综述》
专知会员服务
43+阅读 · 2024年10月19日
《大型语言模型持续学习》综述
专知会员服务
93+阅读 · 2024年4月26日
多语言大型语言模型:资源、分类和前沿综述
专知会员服务
53+阅读 · 2024年4月9日
预训练语言模型的应用综述
专知会员服务
36+阅读 · 2023年1月23日
EMNLP 2021 | 预训练跨语言模型中的大词表构建及使用
专知会员服务
22+阅读 · 2022年1月5日
一大批中文(BERT等)预训练模型等你认领!
PaperWeekly
15+阅读 · 2019年6月25日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关VIP内容
当持续学习遇上多模态大型语言模型:综述
专知会员服务
32+阅读 · 2025年3月5日
《多语言大型语言模型:系统综述》
专知会员服务
49+阅读 · 2024年11月21日
《大语言模型的数据合成与增强综述》
专知会员服务
43+阅读 · 2024年10月19日
《大型语言模型持续学习》综述
专知会员服务
93+阅读 · 2024年4月26日
多语言大型语言模型:资源、分类和前沿综述
专知会员服务
53+阅读 · 2024年4月9日
预训练语言模型的应用综述
专知会员服务
36+阅读 · 2023年1月23日
EMNLP 2021 | 预训练跨语言模型中的大词表构建及使用
专知会员服务
22+阅读 · 2022年1月5日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员