Optimizing pretraining data composition is pivotal for LLM generalization. While dynamic mixing outperforms static strategies by capturing evolving training dynamics, current methods fail to reconcile computational efficiency with sample efficiency and structural flexibility for diverse pipelines.We introduce Actor--Critic Online Data Mixing (AC-ODM), which approaches data mixing from a reinforcement learning perspective with a parameterized policy that we theoretically prove to act as a dynamic linear surrogate maximizing the constructive interference of gradients. To enhance practical flexibility, AC-ODM supports two operational modes: (i) a proxy mode for fixed, pre-prepared corpora, where a policy learned on a small model is transferred to a larger target; and (ii) a non-proxy mode for direct end-to-end training from scratch without priors. Empirically, AC-ODM significantly outperforms prior methods in convergence speed and downstream accuracy across various architectures. On Pythia-1B, it reaches optimal validation perplexity using up to 66% fewer training steps than competitive baselines, delivering a 27.5% relative improvement in MMLU accuracy and a 2.23 x higher pass@1 on HumanEval, all while incurring a virtually negligible (0.4%) per-step wall-clock increase and only 2% additional memory overhead. Code is available at https://github.com/DANG-ai/AC-ODM.


翻译:优化预训练数据组成对于大语言模型的泛化能力至关重要。尽管动态混合策略能通过捕捉训练演化动态优于静态方法,但现有方法无法兼顾计算效率、样本效率以及面向多样化流水线的结构灵活性。我们提出演员-评论家在线数据混合方法(AC-ODM),从强化学习视角出发,采用参数化策略进行数据混合,并从理论上证明该策略可充当动态线性替代函数,最大化梯度间的相长干涉。为增强实际灵活性,AC-ODM支持两种运行模式:(i)代理模式,适用于固定的预制备语料库,将在小模型上习得的策略迁移至更大目标模型;(ii)非代理模式,无需先验知识即可直接进行端到端从头训练。实验表明,AC-ODM在多种架构上的收敛速度和下游准确率均显著优于现有方法。在Pythia-1B模型上,该方法仅需竞争基线方法最多66%的训练步数即可达到最优验证困惑度,MMLU准确率相对提升27.5%,HumanEval的pass@1指标提升2.23倍,而单步训练时钟时间仅增加可忽略不计的0.4%,内存开销仅增加2%。代码已开源:https://github.com/DANG-ai/AC-ODM。

0
下载
关闭预览

相关内容

《大语言模型的数据合成与增强综述》
专知会员服务
44+阅读 · 2024年10月19日
Llama-3-SynE:实现有效且高效的大语言模型持续预训练
专知会员服务
36+阅读 · 2024年7月30日
【ICLR2024】为样本高效的强化学习预训练基于目标的模型
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员