Midtraining, the practice of mixing specialized data with more general pretraining data in an intermediate training phase, has become widespread in language model development, yet there is little understanding of what makes it effective. We propose that midtraining functions as distributional bridging by providing better initialization for posttraining. We conduct controlled pretraining experiments, and find that midtraining benefits are largest for domains distant from general pretraining data, such as code and math, and scale with the proximity advantage the midtraining data provides toward the target distribution. In these domains, midtraining consistently outperforms continued pretraining on specialized data alone both in-domain and in terms of mitigating forgetting. We further conduct an investigation on the starting time and mixture weight of midtraining data, using code as a case study, and find that time of introduction and mixture weight interact strongly such that early introduction of specialized data is amenable to high mixture weights, while late introduction requires lower ones. This suggests that late introduction of specialized data outside a plasticity window cannot be compensated for by increasing data mixtures later in training. Beyond midtraining itself, this suggests that distributional transitions between any training phases may benefit from similar bridging strategies.


翻译:中期训练作为一种在中间训练阶段将专业数据与更通用的预训练数据混合使用的实践,已在语言模型开发中得到广泛应用,但其有效性的内在机制尚不明确。本文提出中期训练通过为后训练提供更优初始化而发挥分布桥接作用。通过开展受控预训练实验,我们发现中期训练对远离通用预训练数据的领域(如代码和数学)效益最为显著,且其效果与中期训练数据向目标分布提供的邻近优势呈正相关。在这些领域中,中期训练不仅持续优于仅使用专业数据的持续预训练(表现为域内性能提升),还能有效缓解灾难性遗忘问题。我们进一步以代码领域为案例,探究了中期训练数据的引入时机与混合权重,发现引入时间与混合权重存在强烈交互效应:早期引入专业数据可承受较高混合权重,而晚期引入则需要降低权重。这表明若在可塑性窗口期之外晚期引入专业数据,仅通过后期增加数据混合比例难以弥补性能损失。除中期训练本身外,本研究暗示任何训练阶段间的分布过渡都可能受益于类似的桥接策略。

0
下载
关闭预览

相关内容

在搭建网络模型时,需要随机初始化参数,然后开始训练网络,不断调整直到网络的损失越来越小。在训练的过程中,一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来,以便训练好的模型可以在下次执行类似任务时获得较好的结果。
《多模态持续预训练实用指南》,52页pdf
专知会员服务
22+阅读 · 2024年9月3日
预训练语言模型的应用综述
专知会员服务
36+阅读 · 2023年1月23日
中文预训练模型研究进展
专知会员服务
79+阅读 · 2022年7月21日
专知会员服务
48+阅读 · 2021年2月2日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
一大批中文(BERT等)预训练模型等你认领!
PaperWeekly
15+阅读 · 2019年6月25日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员