This paper combines autoregressive and masked-diffusion training objectives without any architectural modifications, resulting in flexible language models that outperform single-objective models. Autoregressive modeling has been a popular approach, partly because of its training efficiency; however, that comes at the cost of sensitivity to overfitting. On the other hand, masked-diffusion models are less efficient to train while being more resilient to overfitting. In this work, we demonstrate that dual-objective training achieves the best of both worlds. To derive the optimal balance between both objectives, we train and evaluate 50 language models under varying levels of data repetition. We show that it is optimal to combine both objectives under all evaluated settings and that the optimal balance is similar whether targeting autoregressive or masked-diffusion downstream performance.


翻译:本文在不进行任何架构修改的情况下,结合了自回归与掩码扩散训练目标,从而构建出性能优于单目标模型的灵活语言模型。自回归建模因其训练效率优势而广受欢迎,但这种优势是以对过拟合的敏感性为代价的。另一方面,掩码扩散模型虽然训练效率较低,却具有更强的抗过拟合能力。本研究表明,双目标训练能够同时兼顾二者的优势。为确定两个目标之间的最优平衡,我们在不同程度的数据重复条件下训练并评估了50个语言模型。实验结果表明,在所有评估场景中结合两种目标均为最优策略,且无论以下游自回归性能还是掩码扩散性能为目标,其最优平衡点均具有相似性。

0
下载
关闭预览

相关内容

什么是后训练?大语言模型训练后优化方法综述,87页pdf
Llama-3-SynE:实现有效且高效的大语言模型持续预训练
专知会员服务
36+阅读 · 2024年7月30日
大型语言模型:原理、实现与发展
专知会员服务
102+阅读 · 2023年11月28日
预训练语言模型的应用综述
专知会员服务
36+阅读 · 2023年1月23日
专知会员服务
34+阅读 · 2020年11月25日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
VIP会员
相关VIP内容
什么是后训练?大语言模型训练后优化方法综述,87页pdf
Llama-3-SynE:实现有效且高效的大语言模型持续预训练
专知会员服务
36+阅读 · 2024年7月30日
大型语言模型:原理、实现与发展
专知会员服务
102+阅读 · 2023年11月28日
预训练语言模型的应用综述
专知会员服务
36+阅读 · 2023年1月23日
专知会员服务
34+阅读 · 2020年11月25日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员